一台简单的计算机在没有任何规则或事先信息的情况下就学会了如何播放49经典Atari游戏在短短的两个星期内 - 学会了很好地扮演他们。但是,最令人印象深刻的是,它使用的Google构建算法甚至不是专门为玩游戏而构建的,而只是从自己的经验中学习。
这是什么意思,除了计算机现在可以击败我们的事实之外太空入侵者和突破, 也棋,,,,德克萨斯州Hold'em扑克和解决Rubik的立方体?事实证明,我们现在已经有了一般学习算法的早期阶段,可以帮助机器人和计算机成为我们投入的任何任务的专家,这是非常重要的。
“这是任何人第一次建立一个单一的通用学习系统,可以直接从经验中学习以掌握各种挑战的任务,” Demis Hassabis是主要研究人员之一告诉威廉·赫尔克维茨流行力学。Hassabis是DeepMind Technologies的联合创始人之一,该公司开始制作该算法,并于去年被Google收购,据报道为4亿美元。
出版今天在自然,,,,该团队解释了深度学习算法如何被称为深Q-Network或DQN,能够掌握诸如拳击,太空入侵者和Stargunner没有任何背景信息。这包括诸如要注意的“坏人”以及如何使用控件之类的详细信息。它只能访问分数和屏幕上的像素,以便确定如何成为专家。
通过一遍又一遍地玩游戏,并从错误中学习,该算法首先学习如何正确玩游戏,然后在两周内如何获胜。
当然,这不是教会计算机成为专家游戏玩家的第一个程序。就在20年前,一个名为TD-Gammon的计划掌握了Backmon。但是不同的是,TD-Gammon从来没有设法在类似游戏中做得很好,例如国际象棋和检查员,例如来自国家ICT澳大利亚和UNSW的计算机科学家Toby Walsh,他没有参与研究,在谈话中解释。
另一方面,由于两种技术进步,DQN算法可以掌握一系列不同的游戏。
首先,DQN依赖于称为Q-学习的积极强化学习方法。这基本上意味着该算法将竭尽所能 - 按下每个按钮并像疯狂的人一样移动操纵杆 - 以使其接近“ Q”,这是计算机科学家将其视为最终奖励的价值。在这个实验的情况下,奖励是游戏得分,越高越好。
“了解如何在像这样的游戏中最大化得分太空入侵者,您必须认识到一千种不同的事实:像素化的外星人如何移动,射击它们的事实可以吸引您的观点,何时射击,射击,您控制坦克的事实以及更多的假设,大多数人是人类玩家直观地理解的。然后,如果算法更改为赛车游戏,侧滚子或Pac-Man,它必须学习一套全新的事实。”
但这是第二个改进的来源-DQN建立在一个受人脑将背景噪声与重要信息分开的能力启发的网络上。这意味着DQN能够根据其先前的经验吞噬宝贵的信息,并向它们学习。
尽管这是一个很棒的突破,但重要的是要注意,这还不是一种真正的一般学习算法。程序员仍然必须为该程序设置Q值才能学习 - 一个真正的智能系统将能够制定自己的目标,以掌握一项新技能。
而且DQN从来没有像人类那样真正理解它正在玩的游戏,它只是学会了做什么才能获得更好的分数。因此,有一些DQN无法掌握的游戏,例如蒙特祖玛的复仇(您可以阅读更多有关这些的信息结束华盛顿邮报)。
将来,团队希望花费算法,以便可以帮助您筛选大量科学数据,并得出自己的结论。开发人员之一Koray Kavukcuoglu,“我们已经开发的这种系统只是一般算法的力量的演示告诉赫克维茨。 “这个想法是为了使系统的未来版本能够概括到任何顺序决策问题。”
了解有关DQN如何学习的更多信息自然视频下面,去测试自己的atari技能这里。
接下来阅读此:该计算机程序已解决“解决”德克萨斯州Hold'em扑克