通过在听到人声后进行合成,微软的人工智能可以“为他们说话”,同时保留人的语气、情绪和声音环境。然而,VALL-E 的创建者仍然保持谨慎态度。
不用多说,AI 帮你搞定
在 Microsoft,VALL-E 被认为是《神经编解码器语言模型》。人工智能是一种能够生成语音的文本转语音模型。这不是什么新鲜事,但 VALL-E 因其学习速度(只需三秒钟)以及复制说话者情绪的能力而脱颖而出。人工智能的另一个区别:创建说话者从未说过的单词和短语的录音s。
为了实现这一目标,人工智能接受了 7,000 多名阅读免费公共领域有声读物的说话者所说的超过 60,000 小时的英语语音数据的训练在 LibriVox 上可用。
这Microsoft 在 Github 上分享的片段分为四列。第一个,« 扬声器提示 »,是 VALL-E 必须模仿的三秒音频。第二个,《地面真相》,是同一说话者预先存在的录音,因此可以进行比较。第三个“基线”是传统语音合成的一个例子。最后,“VALL-E”是微软AI口语的摘录。
很惊讶 VALL-E 周围没有更多的闲聊
这个新模型由@微软仅听到该声音的 3 秒样本后就可以生成任何声音的语音🤯
演示 →https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc
— 史蒂文·泰 (@steventey)2023 年 1 月 9 日
我们可以听到相当不同的结果。有些听起来确实像人的声音,而另一些则显然是由机器人口述的。这显然只是一个开始,因为人工智能会随着时间的推移而不断改进。另请记住,起始样本只有三秒长。我们想象,有了更多的数据,VALL-E 将能够产生更有说服力的结果。
微软不想着急
微软意识到,如果 VALL-E 落入坏人之手,可能会导致滥用,因此微软尚未共享其 AI 代码。因此,目前还无法亲自测试人工智能。微软用以下的话结束了它的演讲:
“由于 VALL-E 可以合成构成说话者身份的语音,因此可能存在误用的风险,例如语音 ID 欺骗或冒充特定说话者。为了减轻这些风险,可以构建一个检测模型来确定音频剪辑是否是由 VALL-E 合成的。在进一步开发模型时,我们还将把微软人工智能的道德原则付诸实践。 »
身份被盗后感谢深度造假 并到使用 ChatGPT 在学校环境中作弊,微软希望确保在更广泛地使用其人工智能之前采取适当的保护措施。
来源 : 元界邮报