在没有任何规则或先验信息的情况下,一台简单的计算机已经学会了如何玩 49 种经典游戏雅达利游戏在短短两周内 - 它已经学会了弹得非常好。 但最令人印象深刻的是,它使用的谷歌构建的算法甚至不是专门为了玩游戏而构建的,只是为了学习自己的经验。
除了计算机现在可以在以下方面击败我们这一事实之外,这意味着什么?太空侵略者和爆发, 也棋,德州扑克和解魔方? 事实证明,我们现在已经有了通用学习算法的早期阶段,可以帮助机器人和计算机成为我们交给它们的任何任务的专家,这是一件非常重要的事情。
“这是第一次有人建立了一个单一的通用学习系统,可以直接从经验中学习,以掌握各种具有挑战性的任务,”主要研究人员之一德米斯·哈萨比斯(Demis Hassabis)说,告诉威廉·赫克维茨大众力学。哈萨比斯是 DeepMind Technologies 的联合创始人之一,该公司开始开发该算法,据报道去年被谷歌以 4 亿美元收购。
出版今天在自然,该团队解释了深度学习算法(称为深度 Q 网络或 DQN)如何能够掌握以下游戏:拳击、太空侵略者和星炮手没有任何背景信息。 其中包括诸如要注意哪些“坏人”以及如何使用控件等详细信息。 它只能访问分数和屏幕上的像素,才能弄清楚如何成为专家玩家。
通过一遍又一遍地玩游戏,并从错误中学习,算法首先学习如何正确玩游戏,然后在两周内学习如何获胜。
当然,这并不是第一个教会计算机成为专家游戏玩家的程序。 就在 20 多年前,一个名为 TD-Gammon 的程序掌握了双陆棋。 但不同之处在于,TD-Gammon 从未在国际象棋和西洋跳棋等类似游戏中表现出色,澳大利亚国家信息通信技术协会和新南威尔士大学的计算机科学家托比·沃尔什 (Toby Walsh) 并未参与这项研究,在对话中解释过。
另一方面,由于两项技术进步,DQN 算法可以掌握一系列不同的游戏。
首先,DQN 依赖于一种称为 Q 学习的正强化学习方法。 这基本上意味着算法将尽其所能——按下每个按钮并像疯子一样移动操纵杆——以便更接近“Q”,这是计算机科学家设定为最终奖励的值。 在这个实验中,奖励就是游戏得分,越高越好。
“了解如何在像这样的游戏中最大化你的分数太空侵略者,你必须认识到一千个不同的事实:像素化的外星人如何移动,射击他们可以让你得分,何时射击,射击的作用,你控制坦克的事实,以及更多的假设,其中大部分是人类玩家直观地理解。 然后,如果算法更改为赛车游戏、横向卷轴游戏或吃豆人,它必须学习一套全新的事实。”
但这就是第二个改进的地方 - DQN 建立在一个网络之上,该网络的灵感来自于人脑将背景噪声与重要信息分开的能力。 这意味着 DQN 能够根据其先前的经验吸收有价值的信息,并从中学习。
虽然这是一个了不起的突破,但值得注意的是,这还不是真正的通用学习算法。 程序员仍然必须为程序设置一个 Q 值,以便它能够学习——一个真正的智能系统将能够制定自己的目标,以掌握新技能。
DQN 永远不会像人类那样真正理解它正在玩的游戏,它只是学习如何做才能获得更好的分数。 因此,有些游戏 DQN 无法掌握,例如蒙特祖玛的复仇(您可以阅读有关这些的更多信息于华盛顿邮报)。
未来,该团队希望扩展该算法,使其能够帮助筛选大量科学数据,并得出自己的结论。 “我们开发的这个系统只是通用算法威力的展示,”开发人员之一 Koray Kavukcuoglu 说道。告诉赫克维茨。 “这个想法是让系统的未来版本能够推广到任何顺序决策问题。”
了解有关 DQN 如何学习的更多信息自然视频下面,就去测试一下你自己的 Atari 技能吧这里。
接下来阅读此内容:这个计算机程序“解决”了德州扑克