语音技术公司Elevenlabs引入了一个有趣的人工智能扭曲Openai新发布的模型Sora,该模型从文本提示中生成视频。
Elevenlabs集成了AI生成的声音,以增强Sora,从而为用户提供了新颖的视听体验。这种发展可能意味着内容创建方面的显着进步,从而弥合了Sora生成的视频中视觉和听觉元素之间的差距。
AI的声音:Elevenlabs
Elevenlabs由前Google机器学习工程师Piotr Dabkowski和前Palantir部署策略师Mati Staniszewski于2022年创立,Elevenlabs一直处于Voice AI Innovation的最前沿。
该公司的专业知识在于自然语音综合和语音克隆技术,使用户能够跨多种语言和口音创建现实的AI声音。
现在,Elevenlabs通过将AI生成的声音纳入Sora的高分辨率视频片段来扩展其曲目。此添加旨在通过提供补充视觉内容的背景音频来增强观看体验。
“我们使用了文本提示,例如“波浪崩溃”,“金属叮当声”,“鸟儿chi”和“赛车发动机”来产生我们在Openai Sora公告中覆盖一些我们最喜欢的剪辑的音频,”在最近的博客文章中写道。
它补充说:“我们对社区的兴奋和支持感到兴奋,迫不及待地想把它掌握在您的手中。”
Elevenlabs AI语音技术
除了最近通过AI生成的声音进步外,Elevenlab还在语音技术景观中取得了进步。公司最近宣布一笔8000万美元的B融资回合,吸引了著名风险投资公司的投资。
自成立以来,Elevenlab一直致力于推进语音AI研究和产品部署。该公司声称其技术已在各个领域采用,包括出版,游戏,媒体和对话AI。
在其最近的产品开发中,有配音工作室,该工作流程使用户能够将整个电影配音并生成成绩单,翻译和时间表。此外,ElevenLabs还推出了语音库市场,使用户可以共享和通过AI版本的声音获利。
侧重于安全和负责的AI开发,ElevenLabs采取了措施,以确保AI生成的内容的真实性和完整性。
这包括开发AI语音分类器,以验证音频样本的起源以及引入保障措施以提高公共领域的安全性。
Openai揭露了Sora
介绍了Openai上周Sora模型,展示了文本到视频技术方面的重大进步。尽管这项创新有望改变内容创建,但Openai采取了谨慎的步骤,限制了公众的访问,直到对其潜在影响进行了彻底的评估。
取而代之的是,目前,访问仅限于一组精选的学者和研究人员,其任务是审查模型的功能并评估潜在风险。
Sora可以根据文本描述,具有多个字符,动态运动和详细的环境来生成复杂的场景。它对语言的理解超出了文本提示的解释,包括对所描绘场景中空间关系的深刻理解。
