Alphabet的子公司DeepMind再次击中。她开发了一个新的AI,称为Alphazero。这次,算法已经独自学习,没有人类干预,也没有从任何一无所有的角度出发,国际象棋和Shogi(也称为日本失败)。其中三个不同的游戏仅包含规则。
简短的故事中的新一步
通过使用神经网络,Alphazero不仅迅速学到了掌握这些游戏的知识,而且还成为“历史上最强大的玩家”,这引起了DeepMind的兴奋。
他自己的作品之一的热潮似乎有些感动,但是DeepMind在这一领域有着非凡的历史。她在GO领域的机器上统治了人的统治声音。
2017年5月,在短暂职业后退休之前,Alphago他的人工智能在三场比赛中击败了世界上最好的球员。
成功之后,DeepMind并没有停止在该领域工作。然后,她创建了Alphago Zero,这是一种人工智能,在没有人类监督的情况下学习并控制了GO。

三个峰值人工智能席卷
正是在这个专业知识上,DeepMind押注在与Alphago Zero面对面之前,要制作Alphazero,Stockfish,Stockfish是世界失败的世界冠军和专门从事Shogi的AI的Elmo。
为了撤消他们,Alphazero花了数百万场比赛才能到达那里。她首先要随机尝试策略,然后再从错误中学习并完善自己的策略,这要归功于技术称为增强学习。
毫无疑问,这数百万政党在人类中需要数年的时间,但仅需alphazero才能掌握国际象棋,十二个小时的shogi和十三天的时间才能进行同样的事情。知道Alphazero在四个小时后开始击败人造对手,Elmo两个小时,三十小时为Alphago。
在此学习阶段,要求不少于5,000个TPU,招标加工单元,专门由Google设计用于机器学习的处理器。为了概述其功能,TPU每天可以在Google照片的服务器上处理不少于1亿张图像。
攻击和战术从未见过
这种力量溢出解释了学习的速度,也解释了Alphazero使用一种称为Arborescent Research Monte Carlo的方法,该方法用于做出下一个打击之类的决策,在国际象棋游戏中开发了新的策略和新打击,从未见过。
这是一个令人难以置信的成功,这是肯定的。然而,应该再次看到机器即将到来的人统治。这三款游戏虽然复杂,但共同玩两个游戏并始终显示所有必需的信息。
来源 :
博客de DeepMind