人工智能刚刚拥有了一些世界上最好的扑克玩家

四位世界上最优秀的职业扑克玩家在一场为期 20 天的史诗般的比赛中惨败，(AI) 系统在统治 120,000 手无限注德州扑克后大获全胜。

比赛结束时，名为 Libratus 的人工智能在筹码上领先人类玩家近 180 万美元，这与仅领先人类玩家的筹码形成鲜明对比。两年前，当时另一个程序只能与四名人类职业选手在技术上打成平手。 2017年的复赛中，人类连机会都没有。

Libratus 由卡内基梅隆大学 (CMU) 的计算机科学家开发，紧随之前在游戏中击败人类的人工智能的脚步，例如谷歌的 DeepMind 拥有一些世界上最强大的围棋冠军。

但学习扑克是一个更微妙的心理领域——能够掌握欺骗对手的艺术，同时还能阅读他们的暗示，这表明人工智能如何应对挑战，而成功不仅仅依赖于掌握牌桌规则。

“如果计算机不能虚张声势，那么它就无法在扑克游戏中获胜。”卡耐基梅隆大学计算机科学系主任 Frank Pfenning 说道。

“开发能够成功做到这一点的人工智能是科学上的巨大进步，并且具有众多的应用。想象一下，有一天你的智能手机将能够为你协商新车的最优惠价格。这只是一个开始。”

Libratus 的扑克策略在比赛开始前就经过了相当于 1500 万小时游戏时间的磨练，人工智能安装在一台运行速度为 1.35 petaflops、内存为 274 TB 的超级计算机上。

这些规格意味着超级计算机的速度约为高端笔记本电脑的 7,250 倍，内存约为高端笔记本电脑的 17,500 倍。

但人工智能的杀手级功能是随着比赛的进展向人类职业选手学习，并在其他玩家学会利用它们时自适应地修补自己的策略和游戏风格。

“每天比赛结束后，元算法会分析职业选手在 Libratus 策略中发现和利用的漏洞，”首席研究员 Tuomas Sandholm 说道。

“然后，它对漏洞进行优先级排序，并每晚使用超级计算机通过算法修补前三名......通常研究人员开发的算法试图利用对手的弱点。相比之下，这里的日常改进是通过算法修复我们自己策略中的漏洞。”

这种方法是成功的——尽管它让人类参赛者感到有些绝望，他们必须在长达 20 天的马拉松比赛中不断调整自己的策略。

“机器人每天都变得越来越好，”职业选手之一周吉米 (Jimmy Chou) 说道，比赛进行到一半。 “这就像我们的更强硬版本。”

周的一位竞争对手金东 (Dong Kim) 也表达了同样的观点。

“直到今天我才意识到它有多好，”他告诉凯德·梅茨有线比赛第10天。

“我感觉我正在和一个作弊的人比赛，就像它可以看到我的牌一样。我并不是指责它作弊。它就是那么好。”

您可以从下图中看到 Libratus 的适应性有多有效：

虽然人工智能在比赛的前五天中取得了领先优势，但到了第六天，所有玩家的筹码大致相等。

但随后 Libratus 就起飞了，在接下来的 9 天内大幅增加了约 100 万美元的筹码，而人类玩家则不断失势，无法挽回。

现在竞赛已经结束，卡内基梅隆大学的研究人员表示，他们将分享人工智能的秘密，首先在人工智能协会上进行演讲。人工智能进展会议这个月在旧金山。

讨论该编程的学术论文预计将在未来几个月内发表。

除了高风险纸牌游戏的世界之外，该团队表示 Libratus 的决策能力最终可能会在商业谈判、网络安全甚至医疗中发挥作用。

至于选手们，不必为职业选手感到太难过，尽管他们被击败，但他们将因参加比赛而分享 200,000 美元的奖金池。

也就是说，他们可能不想再次与 AI 进行 20 天的直接扑克比赛。在比赛的最后一天，其中一位职业选手丹尼尔·麦考利向一位观众提出了一个可能只是半开玩笑的问题。

“我要付你多少钱才能玩最后 50 手牌？”他问。 “呃呃呃，这太残酷了。”