微软推出人工智能，只需三秒就能模仿你的声音

2023-01-10

通过在听到人声后进行合成，微软的人工智能可以“为他们说话”，同时保留人的语气、情绪和声音环境。然而，VALL-E 的创建者仍然保持谨慎态度。

不用多说，AI 帮你搞定

在 Microsoft，VALL-E 被认为是《神经编解码器语言模型》。人工智能是一种能够生成语音的文本转语音模型。这不是什么新鲜事，但 VALL-E 因其学习速度（只需三秒钟）以及复制说话者情绪的能力而脱颖而出。人工智能的另一个区别：创建说话者从未说过的单词和短语的录音s。

为了实现这一目标，人工智能接受了 7,000 多名阅读免费公共领域有声读物的说话者所说的超过 60,000 小时的英语语音数据的训练在 LibriVox 上可用。

这Microsoft 在 Github 上分享的片段分为四列。第一个，« 扬声器提示 »，是 VALL-E 必须模仿的三秒音频。第二个，《地面真相》，是同一说话者预先存在的录音，因此可以进行比较。第三个“基线”是传统语音合成的一个例子。最后，“VALL-E”是微软AI口语的摘录。

很惊讶 VALL-E 周围没有更多的闲聊

这个新模型由@微软仅听到该声音的 3 秒样本后就可以生成任何声音的语音🤯

演示 →https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc

— 史蒂文·泰 (@steventey)2023 年 1 月 9 日

我们可以听到相当不同的结果。有些听起来确实像人的声音，而另一些则显然是由机器人口述的。这显然只是一个开始，因为人工智能会随着时间的推移而不断改进。另请记住，起始样本只有三秒长。我们想象，有了更多的数据，VALL-E 将能够产生更有说服力的结果。