有一天,人工智能是否能够比人类玩得一样好,甚至更好?我的世界?最重要的是,通过网络上发布的简单视频,她很快就能学得更快吗?无论如何,这就是 OpenAI 的目标,它刚刚展示了有前景的初步研究结果。
掌握我的世界对人工智能来说是一个巨大的挑战。因为 Mojang 游戏对于计算机来说是一款比国际象棋或围棋(人工智能现在将我们原子化的游戏)复杂得多的游戏。这是一个非常开放的游戏,规则灵活,这就是它如此迷人的原因!它为玩家提供了几乎完全的自由,他们可以探索,工匠、挖掘、建造随心所欲……简而言之,将极其多样化和复杂的动作链接在一起,这些动作很难让不幸的计算机程序学习。
然而,这是 OpenAI 研究人员团队取得的成果。他们从头开始训练了一个模型......它设法“正确”地发挥作用我的世界。更好的是,他们的模型严格地像人类一样玩,也就是说使用传统的游戏界面和控制:击键和鼠标移动。
让我们明白:放手进去我的世界,OpenAI的人工智能没有能力从头开始建造梦想之家,更不用说重现君临。她对更简单的任务感到满意,但她的表现却一点也不荒唐。因此,她成功地建造了一个基本的庇护所,制作了工具,并探索了一个村庄来打开箱子……她甚至有几次成功地创造了一把钻石镐,根据 OpenAI 的说法,这是世界第一。它确实是一个不容易获得的工具,需要许多复杂的探索、制造和组合步骤。
一个玩《我的世界》的人工智能,就是它的样子
向 YouTube 提供数据的人工智能
OpenAI研究人员是如何取得这样的成果的呢?答案几乎就是一个词:YouTube。他们利用了令人难以置信的丰富性和多样性的视频来处理我的世界在互联网上“喂养”他们的模型,然后模型受到他所看到的启发来学习如何玩。
嗯,当然,事情没那么简单。远非如此。他们的技术被称为 VPT(视频预训练)首先包括收集 70,000 小时(!)的游戏视频,更具体地针对初学者:教程、指南等。这已经不简单了:研究人员不得不求助于亚马逊 Mechanical Turk 上招募的“小手”。他们使用每个视频的屏幕截图检查所选内容是否确实可用于该项目(基于 270,000 小时的起始语料库)!
例如,有必要搁置以创意模式录制的视频,或者那些包含可能妨碍机器理解的徽标或工件的视频。
最后,有一点微妙:为了让宝宝更容易开始游戏,研究人员还从这数千个视频中提取了一个仅包含游戏开头的子集。
最重要的是,研究人员并没有就此止步:他们还创建了一个模型(逆动力学模型,IDM)第二个系列视频来自我的世界。这是一个小得多的语料库(只有 2,000 小时),但具有非常精确的优点。因为这些游戏都是几个来自不同国家的玩家专门为了实验而进行的。我的世界经验丰富。因此,研究人员能够记录他们所有的鼠标移动以及在键盘上进行的所有操作。
然后,他们实质上将此模型应用到了他们之前从网络上收集的 70,000 小时的视频中。通过这种方式,他们的人工智能能够“猜测”这些视频中的鼠标和键盘动作,并从中获取灵感。聪明的。
经过这样的训练后,AI已经可以执行游戏中的一些基本任务,比如把木头砍成原木,然后砍木板,然后砍桌子。工艺有四块板。显然,这对于人类玩家来说是微不足道的一步,但根据 OpenAI 的说法,这几乎不可能通过简单的方法来实现强化学习。
很好,但还不够
这已经是正确的,但对于我们的研究人员来说还不够。因此,他们改进了人工智能,试图赋予它更多技能,成功地使用了两种不同的技术。首先,他们要求人类专家我的世界进行 10 分钟的课程,其目标是用基本材料建造一座小房子。
通过将这些部件集成到模型中,他们意识到人工智能不仅能够建造一个适度的庇护所,而且还能更进一步地创建复杂的物体(例如石镐)。
最后,他们还使用了强化学习,要求他们的人工智能在一张空白牌的游戏中十分钟内获得钻石抽奖,并奖励它的努力。这并不容易,因为这需要收集、组合和工匠一长串连续的物体并且不容易找到。但她还是成功完成了几次,占十分钟比赛的 2.5%。
但为什么要向人工智能教授《我的世界》呢?
显然,OpenAI 做这一切并不是为了尝试创造一个“超人”玩家。我的世界,尽管其研究人员估计他们可以收集一百万小时的游戏时间来完善他们的模型。不,VPT 首先可以开辟一种新的方式,教人工智能像人类一样一步一步地“行动”。
“本文提出的结果有助于为将网络上大量未标记数据用于顺序决策域铺平道路。 »我们可以阅读 OpenAI 科学论文的结论吗?
为了更好地理解这个有点无聊的句子,让我们我的世界让我们对 Photoshop 产生兴趣。我们完全可以想象一个类似的人工智能,在 VPT 中接受网络上数千个 Photoshop 教程的训练,它将学习如何在应用程序菜单中移动、单击、应用滤镜、修饰照片……这将极大地方便某些平面设计师的作品!
来源 : 开放人工智能