四位世界上最优秀的职业扑克玩家在一场为期 20 天的史诗般的比赛中惨败,(AI) 系统在统治 120,000 手无限注德州扑克后大获全胜。
比赛结束时,名为 Libratus 的人工智能在筹码上领先人类玩家近 180 万美元,这与仅领先人类玩家的筹码形成鲜明对比。两年前,当时另一个程序只能与四名人类职业选手在技术上打成平手。 2017年的复赛中,人类连机会都没有。
Libratus 由卡内基梅隆大学 (CMU) 的计算机科学家开发,紧随之前在游戏中击败人类的人工智能的脚步,例如谷歌的 DeepMind 拥有一些世界上最强大的围棋冠军。
但学习扑克是一个更微妙的心理领域——能够掌握欺骗对手的艺术,同时还能阅读他们的暗示,这表明人工智能如何应对挑战,而成功不仅仅依赖于掌握牌桌规则。
“如果计算机不能虚张声势,那么它就无法在扑克游戏中获胜。”卡耐基梅隆大学计算机科学系主任 Frank Pfenning 说道。
“开发能够成功做到这一点的人工智能是科学上的巨大进步,并且具有众多的应用。想象一下,有一天你的智能手机将能够为你协商新车的最优惠价格。这只是一个开始。”
Libratus 的扑克策略在比赛开始前就经过了相当于 1500 万小时游戏时间的磨练,人工智能安装在一台运行速度为 1.35 petaflops、内存为 274 TB 的超级计算机上。
这些规格意味着超级计算机的速度约为高端笔记本电脑的 7,250 倍,内存约为高端笔记本电脑的 17,500 倍。
但人工智能的杀手级功能是随着比赛的进展向人类职业选手学习,并在其他玩家学会利用它们时自适应地修补自己的策略和游戏风格。
“每天比赛结束后,元算法会分析职业选手在 Libratus 策略中发现和利用的漏洞,”首席研究员 Tuomas Sandholm 说道。
“然后,它对漏洞进行优先级排序,并每晚使用超级计算机通过算法修补前三名......通常研究人员开发的算法试图利用对手的弱点。相比之下,这里的日常改进是通过算法修复我们自己策略中的漏洞。”
这种方法是成功的——尽管它让人类参赛者感到有些绝望,他们必须在长达 20 天的马拉松比赛中不断调整自己的策略。
“机器人每天都变得越来越好,”职业选手之一周吉米 (Jimmy Chou) 说道,比赛进行到一半。 “这就像我们的更强硬版本。”
周的一位竞争对手金东 (Dong Kim) 也表达了同样的观点。
“直到今天我才意识到它有多好,”他告诉凯德·梅茨有线比赛第10天。
“我感觉我正在和一个作弊的人比赛,就像它可以看到我的牌一样。我并不是指责它作弊。它就是那么好。”
您可以从下图中看到 Libratus 的适应性有多有效:
虽然人工智能在比赛的前五天中取得了领先优势,但到了第六天,所有玩家的筹码大致相等。
但随后 Libratus 就起飞了,在接下来的 9 天内大幅增加了约 100 万美元的筹码,而人类玩家则不断失势,无法挽回。
现在竞赛已经结束,卡内基梅隆大学的研究人员表示,他们将分享人工智能的秘密,首先在人工智能协会上进行演讲。人工智能进展会议这个月在旧金山。
讨论该编程的学术论文预计将在未来几个月内发表。
除了高风险纸牌游戏的世界之外,该团队表示 Libratus 的决策能力最终可能会在商业谈判、网络安全甚至医疗中发挥作用。
至于选手们,不必为职业选手感到太难过,尽管他们被击败,但他们将因参加比赛而分享 200,000 美元的奖金池。
也就是说,他们可能不想再次与 AI 进行 20 天的直接扑克比赛。在比赛的最后一天,其中一位职业选手丹尼尔·麦考利向一位观众提出了一个可能只是半开玩笑的问题。
“我要付你多少钱才能玩最后 50 手牌?”他问。 “呃呃呃,这太残酷了。”