软件巨头 Adobe 推出了一款功能强大的新型音频编辑应用程序,它可能会永远改变我们看待录制语音真实性的方式。
该原型被称为 Project VoCo,最好的描述是“语音 Photoshop”,它使任何人都可以自由编辑录音中的语音内容,就像 Photoshop 等程序允许您编辑视觉数据一样。
预览应用程序Adobe 最大 2016在上周的软件博览会上,普林斯顿大学的研究员 Zeyu Jin 展示了在不久的将来操纵和转换声音文件将是多么容易,并且在极端情况下可以有效地将从未真正说过的话放入人们的嘴里。
虽然音频编辑应用程序长期以来使人们能够手动剪切、复制和拼接声波的各个部分,但 VoCo(语音转换)采用新原理,使用分解和重新编译人类语音的算法。
Adobe 尚未解释这项技术的工作原理,但该软件似乎可以识别并记录音素– 我们将各个语音组合在一起组成单词和句子。
有了适量的声音数据(Adobe 称大约是一个人说话的 20 分钟),VoCo 实际上会记录足够多的音素,通过将它们拼接在一起形成新的单词和句子形式,基本上可以模仿该人。
在下面的视频中,您可以了解 VoCo 的工作原理。 Jin 首先使用喜剧演员 Keegan-Michael Key 录制的一段音频片段开始重新排列单词。
在视频中,基说:“我亲吻了我的狗和我的妻子。”在该程序中,声波的视觉表示出现在一个窗口中,而另一个窗口则显示文本中的口头单词。
通过简单地在文本窗口中复制和粘贴(根本不需要其他编辑技术),Jin 首先将录音更改为“我亲吻了我的妻子,还有我的妻子:”,然后手动将“dogs”键入回文本的末尾。句子:“我亲吻了我的妻子和我的狗。”
到目前为止,这可能没什么特别的,因为所有这些话都出现在原始录音中。但随后金输入了一个不属于音频的新词,插入了一个名字,赋予这句话完全不同的含义:“我吻了乔丹和我的狗。”
更进一步,Jin 编辑了音频,使其显示“我吻了乔丹三次”。
值得指出的是,回放时的录音听起来确实有点问题,演讲的节奏有点不正常,但请记住,这只是一个原型版本。
正如塞巴斯蒂安·安东尼技术艺术Adobe 指出,Adobe 经常在其商业化前一两年的 Max 活动中预览正在开发的软件,毫无疑问,随着技术的进步,这种对真实语音的模仿可能会变得更好。
但与 Photoshop 及其许多克隆产品不同的是,它们具有广泛的吸引力——因为几乎每个人都喜欢照片——谁会需要这种音频编辑技巧呢?
Adobe 正在向媒体、播客、电影制作人和音频行业专业人士推销 VoCo,认为剪切和折叠语音录音的能力将使他们的工作生活更加轻松。
该公司在一份声明中表示:“在录制画外音、对话和旁白时,人们通常会因为犯了错误或仅仅因为他们想改变部分叙述而想要更改或插入一个或几个单词。”新闻稿。
“[使用 VoCo],您可以简单地输入您想要更改或插入到画外音中的一个或多个单词。算法会完成剩下的工作,并使其听起来像原来的说话者所说的那样。”
但尽管该软件无疑令人印象深刻,但并不是每个人都对这种数字音频伪造的新易用性和复杂性感到兴奋。
毕竟,这些类型的编辑基本上可以用来冒充任何人,这可能会导致各种各样的问题——就像猖獗的修图让我们更难相信我们每天在互联网上看到的数字化图像。
英国斯特灵大学媒体和技术研究员艾迪·博尔赫斯·雷伊 (Eddy Borges Rey) 表示:“Adobe 的程序员似乎沉浸在创造像语音操纵器这样创新的东西的兴奋之中,而忽略了其潜在的滥用所带来的道德困境。”告诉英国广播公司。
“在不经意间,在寻求创建操纵数字媒体的软件的过程中,Adobe [已经]彻底改变了我们处理照片等证据材料的方式。”
Adobe表示,它意识到VoCo项目可能被滥用,因此已经在研究能够检测录音是否被篡改的技术,例如嵌入隐藏的音频水印,这可能会触发所使用的语音安全功能在数字银行等系统中。
但是,虽然机器可能能够检测到模仿者,但这并不意味着我们也会如此——所以在未来,当我们听到政客、公众人物或其他人的录音时,我们可能需要习惯不那么相信自己的耳朵。甚至是亲人。
在 VoCo 发布之前(Adobe 尚未确认时间表),我们也无法知道人类是否是它唯一可以愚弄的东西。
伦敦大学学院的研究员史蒂文·默多克(Steven Murdoch)表示:“生物识别公司表示,他们的产品不会因此而受到欺骗,因为他们正在寻找的东西与人类在识别身份时寻找的东西不同。”英国广播公司。
“但找出答案的唯一方法就是对它们进行测试,我们还需要一段时间才能知道答案。”