众所周知的棘手视频游戏吃豆人女士已证明无法匹配软件,微软最新的机器人能够达到 999,990 的最高分——这是人类和机器以前从未达到过的。
研究人员开发了一种新的学习技术来击败游戏——使用多个人工智能机器人而不是仅仅一个来应对不同的挑战吃豆人女士呕吐。
据微软旗下初创公司 Maluuba 的团队介绍,这种方法特别适合吃豆人女士。 游戏玩家不仅需要在迷宫中找到出路,还需要找到奖励物品并避免(或吃掉)幽灵。
每一个方面吃豆人女士- 躲避鬼魂、吃让鬼魂可食用的颗粒、拾取可以提升分数的水果 - 根据其在游戏中的重要性分配一定的权重,然后 163 个被称为“代理”的机器人通过反复试验来得出结论每个元素的最佳方法。
例如,一名特工的任务可能是寻找水果,而另一名特工的任务可能是躲避鬼魂。
然后,主代理使用其子代理的所有反馈来制定游戏的最佳路线。 研究人员发现,当下属专注于自己的目标时,他们的工作效果最好,让“高级经理”能够看到大局。
“一方面,[代理人]必须根据所有代理人的偏好进行合作,但同时每个代理人只关心一个特定问题,两者之间存在着良好的相互作用,”团队成员之一说道,哈姆·范·塞金。
可以说,在现场有如此多的特工,人工智能可以在选择避开幽灵还是走向水果或任何其他决定时权衡最佳方法。 它最终解决了如何获得最高分的问题。
所谓的混合奖励架构(HRA)系统基于“分而治之”方法并将其应用于人工智能,使用单独的算法来评估单独的任务,然后将所有数据汇总在一起以做出最终决定。
也是基于AI实践强化学习,软件会自行发现哪些决策是好的(获得最多的决策)吃豆人女士点)以及哪些决定是糟糕的(让吃豆人女士被鬼魂吃掉)。
但有一个警告:程序员预先编码了规则吃豆人女士首先进入系统,所以特工们并没有自己了解到鬼魂是坏的,他们已经知道了。
然后,他们利用这些知识和 HRA 系统来计算出如何获得最高分。
换句话说,研究团队专门设计了一种人工智能方法吃豆人女士。 最终,他们希望相同的技术可以用于其他游戏以及总体上推进人工智能。
这项研究的论文尚未经过同行评审,因此我们必须等待,看看其他人工智能专家对 Maluuba 团队构建的系统有何看法。
研究人员表示,强化学习和让单独的机器人并行处理不同目标的这种组合可以在从金融模型到机器人技术的各种情况下提供帮助。
加拿大麦吉尔大学的 Doina Precup(未参与这项研究)表示:“让[特工]致力于不同的工作以实现共同目标的想法非常有趣。”微软的艾莉森·林恩。
她说,它最终可以教会人工智能用有限的信息完成复杂的任务,就像大脑一样:“这真的非常令人兴奋,因为这是迈向更通用智能的又一步。”
与此同时,人类吃豆人女士玩家仍停留在 266,330 的高分上。
该研究可在预印本网站上阅读arXiv.org。