有了这个人工智能，我们可以让任何人说任何话

2019-06-11

自动编辑视频采访从未如此简单。来自普林斯顿大学、斯坦福大学以及马克斯·普朗克研究所的研究人员刚刚发布了一项技术，只需修改口头转录的文本即可修改视频演讲的内容。然后，系统能够根据新文本创建相应的视频采访，没有剪辑或混音，就像原始的一样。您可以添加和删除单词，或者只是重新排列它们。结果是如此令人震惊，以至于大多数观看这些修改过的视频的人都认为它们是真的。 YouTube 上的概述视频中显示了示例。

其他研究人员也在探索自动视频生成这一领域。 2017 年，华盛顿大学的一个研究小组成功地创建了巴拉克·奥巴马的人造视频来自现有音轨。相比之下，普林斯顿大学和斯坦福大学的研究人员刚刚提出的技术更优越，因为它避免了录音：修改文本就足够了。

这项改造工作是如何进行的呢？研究人员创建的系统将首先分析视频和口头转录，不仅识别音素，还识别“视素”。也就是说与音素相关的基本面部表情。然后，系统将分析对文本所做的修改，并识别必须用于修改视频的视位。

3D 建模，然后是神经网络

然后分两步创建新序列。首先，该软件将生成嘴巴和下巴运动的 3D 模型，同时尊重视频的一般条件：曝光、照明、头部位置等。其次，先前训练的神经网络会将这些 3D 模型转换为逼真的视频序列。对于音频部分，研究人员采用了不同的方法：他们要么用原人重新录制新文本，要么用 Adobe VoCo 等软件人为生成新的音频部分。

显然，研究人员不希望他们的技术被用来恶意操纵演讲或采访。他们将其视为音视频制作过程中的附加工具，例如纠正录制错误。该软件还可用于为虚拟助手生成逼真的视频序列。

在所有情况下，该技术的使用都应以公开透明的方式进行，并征得被拍摄者的同意。为了避免欺诈和恶意创作，研究人员认为应该开发更多的验证技术，例如取证分析或水印。

来源:项目网站

🔴为了不错过01net的任何新闻，请关注我们谷歌新闻等WhatsApp。

3D 建模，然后是神经网络

相關貼文