继文本、图像和视频之后,OpenAI 正在解决语音问题。 ChatGPT 的创建者透露了一款名为 Voice Engine 的新工具的预览版,它可以克隆任何声音和任何口音:它所需要做的就是听 15 秒的原始声音。一些令人惊奇的事情......并且令人担忧。
继 ChatGPT 和 Dall-E 之后,OpenAI 几周前推出了 Sora,这是一种可以根据简单的文本请求生成极其逼真的视频的人工智能。该型号也将上市年内。
令人不安的现实声音
但这家加州公司并没有就此止步:她确实展示了语音引擎,这是一种新工具,可以从 15 秒的录音中克隆声音。结果也相当惊人,克隆的声音听起来非常真实,语调自然,接近模型的语调。 OpenAI 在其网站上在线发布了一些摘录地点。
Voice Engine 的开发于 2022 年开始,基于基于耳语,优秀的人工智能模型,旨在将语音转录和翻译为文本。该 API 已用于让 ChatGPT 进行对话。
OpenAI对于使用Voice Engine有几个想法:该引擎可以为儿童和不识字的人提供阅读帮助;翻译内容(这也适用于法语);与较少使用语言的人交流;帮助失声的人...
语音引擎还可以用作音频播客的一部分,甚至可以用于广播或创建有声读物(这让这些领域的人类专业人士感到沮丧)。TechCrunch东方落下按照 OpenAI 的定价标准:100 万个字符 15 美元(约 162,500 个单词,相当于雾都孤儿狄更斯所著)。这是相当实惠的。
这个工具可能有最好的意图,但不幸的是,毫无疑问它会被滥用于恶意目的。人工智能的语音克隆已经证明了其危险性,特别是来自假乔·拜登的真实自动呼叫。这就是 OpenAI 采取预防措施的原因。
OpenAI 首先认识到克隆选票会带来严重风险,尤其是在繁忙的选举年。这就是为什么公司“与美国和国际政府、媒体、娱乐、教育、民间社会等领域的合作伙伴合作» 在开发过程中整合他们的反馈。
一方面,有权访问 Voice Engine 的合作伙伴遵守了 OpenAI 的使用条款,该条款禁止未经本人同意盗用身份或利用语音。这些合作伙伴还必须公布颜色,并明确表明声音是由人工智能生成的。
另一方面,安全措施已经开发出来,例如追踪声音来源的水印和“主动监控其使用情况”。然而,很难完全放心……OpenAI 明确指出该技术并非人人可用”目前»。
通过发布此概述,该公司希望引发有关政策的辩论,旨在“保护人工智能对人们声音的使用» 等 «教育公众了解人工智能技术的能力和局限性”。等待第一张单据?
Opera One - AI 驱动的网络浏览器
作者:歌剧
来源 : 开放人工智能