微软刚刚揭开了 VALL-E 2 的面纱,这是一种能够模仿人类声音的新型人工智能。顾名思义,这是第二次迭代谷,一种高效的语音合成模型。该人工智能于 2023 年 1 月宣布,能够在短短三秒内模仿人类的声音。
第二个版本旨在更加有效。根据微软的说法,这是无法区分 VALL-E 2 产生的 Deepfake 声音以真人的声音。人工智能已经达到“人类第一次平等”,欢迎美国出版商访问其网站。到目前为止,由于措辞或语调上的小缺陷,人工智能作品仍然可以被识别。
为了改善VALL-E的渲染效果,微软在AI处理语音数据的方式上添加了两项创新。这些设计上的改变让人工智能能够准确自然地合成语音,“即使对于传统上由于其复杂性或重复短语而困难的句子”。
声音深度造假的危险
微软认为 VALL-E 2 可以跨行业使用,例如“教育学习、娱乐、新闻、自写内容、辅助功能、交互式语音应答系统、翻译、聊天机器人 »。此外,该公司还看到了利用人工智能帮助残疾人的可能性。
毫不奇怪,微软仍然意识到风险由其语音发生器构成。通过利用 VALL-E 这样的模型,恶意者将能够在通话期间欺骗亲人、名人或政客的声音。只需一个电话就能说服某人将钱存入账户或分享敏感信息。在新闻稿中,微软表示它意识到“滥用模型的潜在风险,例如语音模仿或特定说话者的模仿 »。
这为各种滥用行为打开了大门,特别是因为许多网络犯罪分子已经在利用深度造假技术精心策划网络攻击。人工智能生成的内容已经使骗子能够进行大规模的金融欺诈。我们还要提到虚假信息的风险。
因此,作为预防措施,微软拒绝向互联网用户提供人工智能。他不是“没有计划将 VALL-E 2 集成到产品中或扩大公共访问范围”目前。 VALL-E 2 仅供研究用途。
来源 : 微软