继微软之后，Meta 推出了能够在几秒钟内模仿你的声音的人工智能

Meta 刚刚揭开了 Voicebox 的面纱，这是一种能够模仿人类声音的人工智能。该模型利用数千小时的录音，可以将文本转换为音频文件。意识到风险，Meta 已采取预防措施以避免过度行为......

Meta 继续在人工智能领域为自己开辟一席之地。门洛帕克巨头已上线大量人工智能模型在过去的几个月里，从LLaMA，大型语言模型元人工智能。该模型可供开发人员使用，使得设计大量个性化聊天机器人成为可能，包括FreedomGPT，未经审查的对话机器人。

Meta 的人工智能如何模仿你的声音

最近，Meta 还推出了“JEPA”，这是一个非常不同的模型，旨在接近人类智能，等音乐生成器，根据描述生成音乐的人工智能。马克·扎克伯格的公司现在正在路上语音盒。这种生成式人工智能旨在创建语音文件。简而言之，人工智能可以“说出”演讲并将其保存在音频文件中。

这个系统《语音合成》需要“持续两秒的音频样本”发挥作用。受这个例子的启发，人工智能将生成演讲以摘录中听到的人的方式。据母公司解释Facebook在他的报告中，“Voicebox 经过训练，可以在给定周围语音和转录的情况下预测语音片段。”

具体来说，您可以仅以一个简短的音频文件为例来模拟亲人或歌手的声音。人工智能还利用文本的上下文来校准其输出。同样，声音风格可以应用于已经存在的演讲。 AI可以用另一个人的声音代替最初的声音。

“Voicebox 可以生成更能代表人们在现实世界中说话方式的语音”，元解释道。

另请阅读：假 ChatGPT 正在接管互联网——Meta 的警告

无限可能

Meta 在其新闻稿中指出，人工智能还可以使编辑音频文件变得更容易。例如，Voicebox 能够消除背景中的汽车喇叭或狗叫声。如果声音破坏了文件的和谐，人工智能可以删除有问题的部分，并从头到尾重新生成。同样，发音错误或单词选择不当，人工智能可以在后期制作中轻松删除。

锦上添花的是 Voicebox 模型是多语言的。它支持六种不同的语言，即英语、法语、西班牙语、德语、波兰语和葡萄牙语。根据 Meta 的说法，生成式人工智能甚至可以促进不同语言的人之间的交流。事实上，该模型可以用初始音频文件以外的语言发出语音。用英语录制的消息很可能会生成西班牙语或法语的音频文件。据设计者介绍，Voicebox 还可以为静音或静音的人发出声音。个性化虚拟助理的印章或者游戏中不可玩的角色。事实上，Voicebox 应用程序似乎无穷无尽……

不出所料，该模型基于堆积如山的数据执行分配给他的任务。梅塔解释说，他主要为模型提供了录制的演讲和有声读物，可以免费访问，用不同的语言编写。在训练阶段，模型总共消耗了超过 50,000 小时的音频。

具体来说，该模型是基于所谓的技术进行训练的流量匹配，由 Meta 研究人员发明。它允许人工智能基于数据库进行学习，该数据库的数据未经研究人员仔细标记，从而节省了时间。

尽管有很多优点，Voicebox 仍然存在某些局限性。该模型主要通过有声读物进行训练，在生成简单对话方面效率不高，通常会散布自发的非语言表达。同样，声音的风格、语气和情感有时仍然很难让算法理解。

无法访问源代码

与它的习惯相反，Meta 目前不会提供对 AI 源代码的访问。虽然它是“与社区开放并分享我们的研究非常重要”，门洛帕克巨人将矛头指向了一个重要的“潜在的误用和意外伤害”。毫不奇怪，Meta 担心人工智能会被用来模仿个人或以艺术家的方式生成歌曲。

与此同时，Meta 正在开发一种工具，能够确定语音是否是由人工智能生成的，或者是否是真实的摘录。这个举措有点让人想起OpenAI开发的探测器识别想象的内容聊天GPT。

请注意，这并不是第一个能够根据语音样本生成音频语音的人工智能模型。情况也是如此VALL-E，微软开发的模型。只需三秒的示例，该工具就可以不停地模仿声音。 VALL-E 镜像 Voicebox 与现有生成器（例如 Elevenlab 的 Speechify 或 Prime Voice）的不同之处在于减少了设计音频文件所需的数据量。通过非常短的样本，现在可以模仿一个人的声音......

🔴为了不错过任何01net新闻，请关注我们谷歌新闻等WhatsApp。

Opera One - AI 驱动的网络浏览器

作者：歌剧

来源：元

Meta 的人工智能如何模仿你的声音

无限可能

无法访问源代码

相關貼文