Meta 刚刚揭开了 Voicebox 的面纱,这是一种能够模仿人类声音的人工智能。该模型利用数千小时的录音,可以将文本转换为音频文件。意识到风险,Meta 已采取预防措施以避免过度行为......
Meta 继续在人工智能领域为自己开辟一席之地。门洛帕克巨头已上线大量人工智能模型在过去的几个月里,从LLaMA,大型语言模型元人工智能。该模型可供开发人员使用,使得设计大量个性化聊天机器人成为可能,包括FreedomGPT,未经审查的对话机器人。
Meta 的人工智能如何模仿你的声音
最近,Meta 还推出了“JEPA”,这是一个非常不同的模型,旨在接近人类智能,等音乐生成器,根据描述生成音乐的人工智能。马克·扎克伯格的公司现在正在路上语音盒。这种生成式人工智能旨在创建语音文件。简而言之,人工智能可以“说出”演讲并将其保存在音频文件中。
这个系统《语音合成》需要“持续两秒的音频样本”发挥作用。受这个例子的启发,人工智能将生成演讲以摘录中听到的人的方式。据母公司解释Facebook在他的报告中,“Voicebox 经过训练,可以在给定周围语音和转录的情况下预测语音片段。”
具体来说,您可以仅以一个简短的音频文件为例来模拟亲人或歌手的声音。人工智能还利用文本的上下文来校准其输出。同样,声音风格可以应用于已经存在的演讲。 AI可以用另一个人的声音代替最初的声音。
“Voicebox 可以生成更能代表人们在现实世界中说话方式的语音”,元解释道。
无限可能
Meta 在其新闻稿中指出,人工智能还可以使编辑音频文件变得更容易。例如,Voicebox 能够消除背景中的汽车喇叭或狗叫声。如果声音破坏了文件的和谐,人工智能可以删除有问题的部分,并从头到尾重新生成。同样,发音错误或单词选择不当,人工智能可以在后期制作中轻松删除。
锦上添花的是 Voicebox 模型是多语言的。它支持六种不同的语言,即英语、法语、西班牙语、德语、波兰语和葡萄牙语。根据 Meta 的说法,生成式人工智能甚至可以促进不同语言的人之间的交流。事实上,该模型可以用初始音频文件以外的语言发出语音。用英语录制的消息很可能会生成西班牙语或法语的音频文件。据设计者介绍,Voicebox 还可以为静音或静音的人发出声音。个性化虚拟助理的印章或者游戏中不可玩的角色。事实上,Voicebox 应用程序似乎无穷无尽……
不出所料,该模型基于堆积如山的数据执行分配给他的任务。梅塔解释说,他主要为模型提供了录制的演讲和有声读物,可以免费访问,用不同的语言编写。在训练阶段,模型总共消耗了超过 50,000 小时的音频。
具体来说,该模型是基于所谓的技术进行训练的流量匹配,由 Meta 研究人员发明。它允许人工智能基于数据库进行学习,该数据库的数据未经研究人员仔细标记,从而节省了时间。
尽管有很多优点,Voicebox 仍然存在某些局限性。该模型主要通过有声读物进行训练,在生成简单对话方面效率不高,通常会散布自发的非语言表达。同样,声音的风格、语气和情感有时仍然很难让算法理解。
无法访问源代码
与它的习惯相反,Meta 目前不会提供对 AI 源代码的访问。虽然它是“与社区开放并分享我们的研究非常重要”,门洛帕克巨人将矛头指向了一个重要的“潜在的误用和意外伤害”。毫不奇怪,Meta 担心人工智能会被用来模仿个人或以艺术家的方式生成歌曲。
与此同时,Meta 正在开发一种工具,能够确定语音是否是由人工智能生成的,或者是否是真实的摘录。这个举措有点让人想起OpenAI开发的探测器识别想象的内容聊天GPT。
请注意,这并不是第一个能够根据语音样本生成音频语音的人工智能模型。情况也是如此VALL-E,微软开发的模型。只需三秒的示例,该工具就可以不停地模仿声音。 VALL-E 镜像 Voicebox 与现有生成器(例如 Elevenlab 的 Speechify 或 Prime Voice)的不同之处在于减少了设计音频文件所需的数据量。通过非常短的样本,现在可以模仿一个人的声音......
Opera One - AI 驱动的网络浏览器
作者:歌剧
来源 : 元