元拒绝将语音工具公开，因为比克塞拉布突出显示语音欺诈问题

2023-06-20

AI语音技术可以从字面上带来无声的声音，并帮助我们超越语言障碍。即使使用了如此有影响力的用例，安全风险也会加剧，遵循AI生成的语音技术的兴起，特别是对于使用生物识别语音身份验证和社会工程攻击的系统，这是第二期中强调的比克塞拉布的ID风险提醒新闻通讯。

Bixelab注意到澳大利亚记者他使用自己的声音的AI生成的克隆来获得未经授权的Centrelink帐户的访问。在英国，网络安全研究人员使用自己的声音的AI生成版本访问银行帐户。测试和咨询公司将欺诈风险的关键视为“高”。

Meta最近宣布（但未发布），其最新的生成AI系统，语音箱。该技术可以通过语音样本和文本产生口语对话，并具有语音de否和编辑，文本到语音综合以及多样化的语音采样等功能。尽管如此，由于“潜在的滥用风险”，这家技术巨头“目前尚未公开使用语音箱模型或代码”。

语音箱可以从头开始或基于示例模型创建输出。该系统目前的单词错误率为1.9％，超过VALL-E的错误率为5.9％。语音箱还表现出色的跨语言风格转移，平均单词错误率分别为5.2％，而10.9％。语音箱在音频样式的相似性上还胜过Vall-E和Yourtts。

该技术还使用流程匹配模型，该模型是一种非自动性产生模型，可以在文本和语音之间学习非确定性映射，从而使该技术能够在不使用标签的情况下从各种语音数据中学习。结果，语音箱可以在更大范围内训练更多样化的数据。

Meta训练有素的语音箱，并带有“超过50,000小时的录制语音和来自英语，法语，西班牙，德语，波兰语和葡萄牙语的公共领域有声读物的成绩单”。它可以从上下文中填充语音，并生成音频录制的中间，而无需完全重新创建输入。

VoiceBox可以使用两个秒的音频示例来生成匹配的音频样式，然后可以用来生成文本到语音，这可以为无法说话的人提供语音。跨语性风格转移使用户可以将文本从一种语言转变为另一种语言的音频，从而创建了一种克服语言障碍的新途径。它还可以重新合成语音以消除背景噪声，从而简化音频编辑过程。

语音身份验证和安全威胁继续

据报道，语音盒可以实现邪恶的AI生成的语音克隆，从而超过语音身份验证。

该技术还可以用来加强社会工程攻击。在2023年的区域反扫描会议上在新加坡，内政大臣太阳Xueling表示担心这项技术可用于模仿公众人物并传播虚假信息。

在一月亚利桑那母亲是勒索软件骗局的目标，它使用Deepfake语音生成技术来欺骗该女性，以为自己的女儿被绑架并被绑架了。她在对参议院司法委员会的证词中说：“我将永远无法动摇那个声音和绝望的哭声。”