三星令人毛骨悚然的新人工智能可以从单个图像生成会说话的 Deepfakes

2019-05-24

（三星AI中心）

我们的深度造假问题情况即将变得更糟：三星工程师现在已经开发出可以从单个图像生成的逼真的说话头像，因此人工智能甚至可以将文字放入蒙娜丽莎的嘴中。

新算法由来自莫斯科的三星人工智能中心和斯科尔科沃科学技术研究所的团队开发，最适合处理从不同角度拍摄的各种样本图像，但它们也可以非常有效地处理仅一张图片从，甚至一幅画。

（叶戈尔·扎哈罗夫）

据其背后的研究人员称，新模型不仅可以在较小的初始图片数据库中工作，还可以在更短的时间内生成计算机生成的视频。

尽管该技术可以用于各种很酷的应用——例如将自己的超现实版本放入虚拟现实中——但人们也担心，仅仅一张图片就可以产生完全虚假的视频片段。

“这种能力在远程呈现方面具有实际应用，包括视频会议和多人游戏，以及特效行业，”写给研究人员在他们的论文中。

（叶戈尔·扎哈罗夫）

该系统的工作原理是对一系列具有里程碑意义的面部特征进行自我训练，然后对其进行操作。大量训练是在一个名为 VoxCeleb 的公开数据库上完成的，该数据库包含 7,000 多张名人图像，以及大量人们对着镜头说话的视频。

这种新方法对过去工作的改进之处在于教授神经网络如何将具有里程碑意义的面部特征多次转换为逼真的移动视频。然后，这些知识可以部署在人工智能以前从未见过的人的几张照片（或一张照片）上。

（叶戈尔·扎哈罗夫）

该系统利用一个卷积神经网络，一种基于动物视觉皮层生物过程的神经网络。它特别擅长处理图像堆栈并识别其中的内容 - “卷积”本质上是识别和提取图像的一部分（例如，它也用于网络上的图像搜索和自动驾驶汽车技术）。

（三星AI中心）

和其他人一样人工智能驱动的人脸生成工具我们已经看到，该过程的最后阶段检查“完美现实主义”——技术上是对抗性生成模型。任何看起来太奇怪或不自然的帧都会被剪切并再次渲染，从而留下质量更好的最终视频。

这项技术成功地克服了人工生成的头部的两大问题：头部的复杂性（有嘴、头发、眼睛等），以及我们轻松识别假头部的能力（人物面部是视频游戏中最难的元素之一）例如，设计师要做出正确的选择）。

该系统以及其他类似系统必然会变得更好算法改进训练模型变得更加高效——这意味着一系列全新的问题，即你是否可以相信你所看到的内容或听到如果它是数字形式的。

从好的方面来说，你最喜欢的电影和电视明星永远不会变老和死亡——类似的人工智能很快就会变得足够聪明，只需几张照片就能在创纪录的时间内制作出完全逼真的表演。

请记住，眼见并不总是令人相信。

该研究已发表在预印本服务器上arXiv.org。