自动编辑视频采访从未如此简单。来自普林斯顿大学、斯坦福大学以及马克斯·普朗克研究所的研究人员刚刚发布了一项技术,只需修改口头转录的文本即可修改视频演讲的内容。然后,系统能够根据新文本创建相应的视频采访,没有剪辑或混音,就像原始的一样。您可以添加和删除单词,或者只是重新排列它们。结果是如此令人震惊,以至于大多数观看这些修改过的视频的人都认为它们是真的。 YouTube 上的概述视频中显示了示例。
其他研究人员也在探索自动视频生成这一领域。 2017 年,华盛顿大学的一个研究小组成功地创建了巴拉克·奥巴马的人造视频来自现有音轨。相比之下,普林斯顿大学和斯坦福大学的研究人员刚刚提出的技术更优越,因为它避免了录音:修改文本就足够了。
这项改造工作是如何进行的呢?研究人员创建的系统将首先分析视频和口头转录,不仅识别音素,还识别“视素”。也就是说与音素相关的基本面部表情。然后,系统将分析对文本所做的修改,并识别必须用于修改视频的视位。
3D 建模,然后是神经网络
然后分两步创建新序列。首先,该软件将生成嘴巴和下巴运动的 3D 模型,同时尊重视频的一般条件:曝光、照明、头部位置等。其次,先前训练的神经网络会将这些 3D 模型转换为逼真的视频序列。对于音频部分,研究人员采用了不同的方法:他们要么用原人重新录制新文本,要么用 Adobe VoCo 等软件人为生成新的音频部分。
显然,研究人员不希望他们的技术被用来恶意操纵演讲或采访。他们将其视为音视频制作过程中的附加工具,例如纠正录制错误。该软件还可用于为虚拟助手生成逼真的视频序列。
在所有情况下,该技术的使用都应以公开透明的方式进行,并征得被拍摄者的同意。为了避免欺诈和恶意创作,研究人员认为应该开发更多的验证技术,例如取证分析或水印。
来源:项目网站