Alphabet旗下Deepmind再次出击。她开发了一种新的人工智能,称为 AlphaZero。这一次,算法在没有人工干预的情况下从头开始自行学习下围棋、国际象棋和将棋(也称为日本象棋)。他只获得了三场不同的比赛的规则。
短篇小说取得成功的新一步
Deepmind 兴奋地表示,通过使用神经网络,AlphaZero 不仅很快学会了掌握这些游戏,而且还成为“历史上最强大的玩家”。
这种对其自己的创作的热情似乎有点不合时宜,但 Deepmind 在这一领域有着非凡的记录。这敲响了围棋领域人类统治机器的丧钟。
2017 年 5 月,在短暂的职业生涯后退休之前,阿尔法围棋它的人工智能在三盘比赛中彻底击败了世界上最好的选手。
这次成功之后,Deepmind 并没有停止在这个领域的努力。然后她创建了 AlphaGo Zero,这是一种人工智能,可以在没有人类监督的情况下学习并掌握围棋。
三大前沿人工智能横扫
Deepmind 正是基于这一专业知识创建了 AlphaZero,然后将其与 AlphaGo Zero、世界象棋冠军人工智能 Stockfish 和专门研究将棋的人工智能 Elmo 进行了竞争。
为了消除这些问题,AlphaZero 花费了数百万游戏的时间才做到这一点。她首先随机尝试策略,然后使用一种称为强化学习的技术从错误中吸取教训并完善策略。
这些数以百万计的游戏可能需要人类花费数年的时间,但 AlphaZero 只花了九个小时就掌握了国际象棋,十二个小时就掌握了将棋,十三天就掌握了围棋,因为知道 AlphaZero 在 Stockfish 上四小时后就开始击败人工对手。 ,Elmo 两个小时,AlphaGo 三十个小时。
在这个学习阶段,使用了不少于 5000 个 TPU、投标处理单元、谷歌专门为机器学习设计的处理器。为了概述其强大功能,TPU 每天可以在 Google Photos 服务器上处理不少于 1 亿张图像。
前所未见的攻击和战术
这种能力的溢出解释了学习的速度,也解释了 AlphaZero 使用一种称为蒙特卡罗树搜索的方法(用于做出下一步行动等决策)的事实,开发了以前从未见过的新策略和新动作。一场国际象棋比赛。
这无疑是一项令人难以置信的成就。然而,我们不应该再次看到机器即将统治人类。这三个游戏虽然复杂,但有一个共同点,那就是它们可以成对玩,并且总是提供所有必需的信息。
来源 :
Deepmind 博客