语音引擎，OpenAI 用于利用 AI 克隆语音的新工具

2024-03-30

继文本、图像和视频之后，OpenAI 正在解决语音问题。 ChatGPT 的创建者透露了一款名为 Voice Engine 的新工具的预览版，它可以克隆任何声音和任何口音：它所需要做的就是听 15 秒的原始声音。一些令人惊奇的事情......并且令人担忧。

继 ChatGPT 和 Dall-E 之后，OpenAI 几周前推出了 Sora，这是一种可以根据简单的文本请求生成极其逼真的视频的人工智能。该型号也将上市年内。

令人不安的现实声音

但这家加州公司并没有就此止步：她确实展示了语音引擎，这是一种新工具，可以从 15 秒的录音中克隆声音。结果也相当惊人，克隆的声音听起来非常真实，语调自然，接近模型的语调。 OpenAI 在其网站上在线发布了一些摘录地点。

Voice Engine 的开发于 2022 年开始，基于基于耳语，优秀的人工智能模型，旨在将语音转录和翻译为文本。该 API 已用于让 ChatGPT 进行对话。

里拉ChatGPT 很快就会取代 Android 智能手机上的 Google Assistant

OpenAI对于使用Voice Engine有几个想法：该引擎可以为儿童和不识字的人提供阅读帮助；翻译内容（这也适用于法语）；与较少使用语言的人交流；帮助失声的人...

语音引擎还可以用作音频播客的一部分，甚至可以用于广播或创建有声读物（这让这些领域的人类专业人士感到沮丧）。TechCrunch东方落下按照 OpenAI 的定价标准：100 万个字符 15 美元（约 162,500 个单词，相当于雾都孤儿狄更斯所著）。这是相当实惠的。

这个工具可能有最好的意图，但不幸的是，毫无疑问它会被滥用于恶意目的。人工智能的语音克隆已经证明了其危险性，特别是来自假乔·拜登的真实自动呼叫。这就是 OpenAI 采取预防措施的原因。

里拉乔·拜登使用人工智能打出的数千个假电话只需花费 500 美元

OpenAI 首先认识到克隆选票会带来严重风险，尤其是在繁忙的选举年。这就是为什么公司“与美国和国际政府、媒体、娱乐、教育、民间社会等领域的合作伙伴合作» 在开发过程中整合他们的反馈。

一方面，有权访问 Voice Engine 的合作伙伴遵守了 OpenAI 的使用条款，该条款禁止未经本人同意盗用身份或利用语音。这些合作伙伴还必须公布颜色，并明确表明声音是由人工智能生成的。

另一方面，安全措施已经开发出来，例如追踪声音来源的水印和“主动监控其使用情况”。然而，很难完全放心……OpenAI 明确指出该技术并非人人可用”目前»。

通过发布此概述，该公司希望引发有关政策的辩论，旨在“保护人工智能对人们声音的使用» 等 «教育公众了解人工智能技术的能力和局限性”。等待第一张单据？

🔴为了不错过01net的任何新闻，请关注我们谷歌新闻等WhatsApp。

Opera One - AI 驱动的网络浏览器

作者：歌剧