极其逼真的人工智能视频软件将奥巴马的话放进嘴里

研究人员开发了一种新工具，由人工智能，它可以从任何音频剪辑中创建逼真的演讲视频，他们通过合成巴拉克·奥巴马(Barack Obama)说出相同台词的四个人造视频来演示该技术。

不过，该工具的目的并不是制造一系列假新闻，并向人们口中传播虚假言论——它的设计部分目的是为了最终发现伪造品和视频，而这些伪造品和视频并非表面上看起来的那样。

据华盛顿大学的研究小组称，只要有音频源可供使用，视频中就可以包含与所说的话几乎完全一致的逼真嘴形。然后可以将这些合成的形状嫁接到某人说话的现有视频上。

“以前从未显示过此类结果，”一位研究人员说，艾拉·凯梅尔马赫-施利泽曼。 “逼真的音频到视频转换具有实际应用，例如改进会议视频会议，以及未来应用，例如能够在虚拟现实中与历史人物进行对话。”

“这种突破将有助于实现后续步骤。”

视频合成阶段。图片来源：华盛顿大学

该系统由两部分组成：首先，训练神经网络观看大量视频，以识别哪些音频声音与哪些嘴型相匹配。然后将结果与特定人的移动图像混合，基于先前的研究进入华盛顿大学进行的数字建模。

正如您从演示剪辑（如下）中看到的那样，该工具非常好，但它需要源音频和视频文件才能工作，并且无法凭空生成演讲。研究人员表示，未来，人工智能系统可以使用消息应用程序中的视频进行训练，然后用于提高其质量。

“当你观看 Skype 或 Google Hangouts 时，连接通常会断断续续、分辨率低，令人非常不舒服，但音频通常都非常好，”团队成员之一说道，史蒂夫·塞茨。 “因此，如果您可以使用音频来制作质量更高的视频，那就太棒了。”

研究人员表示，在发现虚假视频时，可以反转此处使用的算法来检测已被篡改的剪辑。

您可以在下面看到该工具的运行情况：

正如您可能从视频游戏和动画电影中了解到的那样，科学家们正在努力解决“恐怖谷”问题，即计算机生成的某人说话的视频看起来几乎正确，但仍然令人不快。

在这种情况下，人工智能系统会承担所有繁重的工作，包括计算嘴形、下巴位置以及使某人说话的剪辑看起来逼真所需的其他元素。

人工智能擅长机器学习问题像这样，可以分析大量数据来教计算机系统做某事——无论是在图像搜索中识别狗还是生成看起来自然的视频。

“采访、视频聊天、电影、电视节目和其他来源已经存在数百万小时的视频，”首席研究员 Supasorn Suwajanakorn 说道。 “而且这些深度学习算法非常需要数据，所以采用这种方式是一个很好的匹配。”

这是数字造假质量方面又向前迈出了有点可怕的一步，类似于 Adobe 的 Project VoCo，该项目我们去年看到的– 另一种人工智能系统，可以在研究某人 20 分钟的讲话后凭空产生新的语音。

然而，这种特殊的神经网络被设计为一次只能与一个人一起使用真实的音频剪辑，因此您仍然可以在一段时间内相信您在新闻中看到的镜头。

“我们非常有意识地决定不走把别人的话放在别人嘴里的道路，”塞茨说。 “我们只是将某人所说的真实话语转化为该人的真实视频。”