AI的声音：Elevenlabs为Openai的Sora添加了AI生成的声音

2024-02-20

语音技术公司Elevenlabs引入了一个有趣的人工智能扭曲Openai新发布的模型Sora，该模型从文本提示中生成视频。

Elevenlabs集成了AI生成的声音，以增强Sora，从而为用户提供了新颖的视听体验。这种发展可能意味着内容创建方面的显着进步，从而弥合了Sora生成的视频中视觉和听觉元素之间的差距。

AI的声音：Elevenlabs

Elevenlabs由前Google机器学习工程师Piotr Dabkowski和前Palantir部署策略师Mati Staniszewski于2022年创立，Elevenlabs一直处于Voice AI Innovation的最前沿。

该公司的专业知识在于自然语音综合和语音克隆技术，使用户能够跨多种语言和口音创建现实的AI声音。

现在，Elevenlabs通过将AI生成的声音纳入Sora的高分辨率视频片段来扩展其曲目。此添加旨在通过提供补充视觉内容的背景音频来增强观看体验。

“我们使用了文本提示，例如“波浪崩溃”，“金属叮当声”，“鸟儿chi”和“赛车发动机”来产生我们在Openai Sora公告中覆盖一些我们最喜欢的剪辑的音频，”在最近的博客文章中写道。

它补充说：“我们对社区的兴奋和支持感到兴奋，迫不及待地想把它掌握在您的手中。”

除了最近通过AI生成的声音进步外，Elevenlab还在语音技术景观中取得了进步。公司最近宣布一笔8000万美元的B融资回合，吸引了著名风险投资公司的投资。

自成立以来，Elevenlab一直致力于推进语音AI研究和产品部署。该公司声称其技术已在各个领域采用，包括出版，游戏，媒体和对话AI。

在其最近的产品开发中，有配音工作室，该工作流程使用户能够将整个电影配音并生成成绩单，翻译和时间表。此外，ElevenLabs还推出了语音库市场，使用户可以共享和通过AI版本的声音获利。

侧重于安全和负责的AI开发，ElevenLabs采取了措施，以确保AI生成的内容的真实性和完整性。

这包括开发AI语音分类器，以验证音频样本的起源以及引入保障措施以提高公共领域的安全性。

介绍了Openai上周Sora模型，展示了文本到视频技术方面的重大进步。尽管这项创新有望改变内容创建，但Openai采取了谨慎的步骤，限制了公众的访问，直到对其潜在影响进行了彻底的评估。

取而代之的是，目前，访问仅限于一组精选的学者和研究人员，其任务是审查模型的功能并评估潜在风险。

Sora可以根据文本描述，具有多个字符，动态运动和详细的环境来生成复杂的场景。它对语言的理解超出了文本提示的解释，包括对所描绘场景中空间关系的深刻理解。