《星际争霸 II》有一位新大师，而且不是人类

2019-10-30

电子游戏是由人类为人类发明的。但这并不一定意味着我们在与他们比赛时是最好的。

一项新成就标志着我们走了多远（AI）进步了，科学家开发出学习算法，跻身电子竞技强国最顶层星际争霸2，达到宗师级别。

根据创建人工智能的研究人员的说法？叫做阿尔法星？达到大师联赛的成就意味着您已跻身前 0.2%星际争霸2玩家。

换句话说，AlphaStar 在这款多人实时战略游戏中的竞争水平足以击败数百万有勇无谋的人类。

近年来，我们看到人工智能开始主导游戏，这些游戏代表了更传统的人类技能测试，掌握了棋,扑克，和去。

对于英国人工智能公司 DeepMind 的首席研究科学家 David Silver 来说，这些里程碑是什么？其中许多是 DeepMind 首创的？是什么让我们走到了这个不可避免的时刻：这个游戏所带来的问题甚至比几个世纪以来挑战人类思维的古代游戏还要大。

“自从计算机破解了围棋、国际象棋和扑克以来，《星际争霸》就被一致认为是下一个重大挑战，”西尔弗说。

“这款游戏的复杂性比国际象棋要高得多，因为玩家控制数百个单位；比围棋更复杂，因为每一步都有 1,026 种可能的选择；而且玩家对对手的信息比扑克要少。”

将所有内容加在一起并掌握复杂的实时战斗星际争霸对于机器来说这几乎是不可能的，那么他们是如何做到的呢？

在一个新的本周发表的论文，DeepMind 团队描述了他们如何开发一种多智能体强化学习算法，该算法通过自我对弈来训练自己，包括与自己对战、与人类对战、学习模仿成功的策略以及有效的反策略。

“我永远不会忘记当 AlphaStar 第一次开始参加真正的竞技比赛时我们所感受到的兴奋和情感，”顶级人类之一达里奥“TLO”Wu?nsch 说道。星际争霸2被算法击败的玩家。

“该系统非常擅长评估其战略地位，并且确切地知道何时与对手交战或脱离交战。”

最新的算法比最初的版本更进一步，现在可以在人工约束下有效地进行游戏，这些约束旨在最真实地模拟人类体验的游戏玩法（例如通过摄像头在远处观察游戏，并感受网络的延迟）潜伏）。

尽管人类受到种种限制，AlphaStar 在真实的在线竞技游戏中仍然达到了大师级别，这不仅代表着世界第一，而且考虑到现在可能实现的成就，这可能是此类游戏挑战的落日之作。

“喜欢星际争霸，个人助理、自动驾驶汽车或机器人等现实世界领域需要在观察到的信息不完善的情况下，在组合或结构化动作空间上进行实时决策，”作者写道。

“AlphaStar 的成功星际争霸2建议通用算法可能对复杂的现实问题产生重大影响。”

研究结果报告于自然。