野性发布新的生成AI模型Omnihuman

2025-02-05

中国科技公司已经提出了一个生成的AI框架，该框架可以根据称为Omnihuman-1的单个图像和运动信号来创建人类高度逼真的视频。

兽的研究人员证明该技术通过生成几个现实的人类视频，包括阿尔伯特·爱因斯坦和NVIDIA首席执行官詹森·黄。这些视频显示人类在充满挑战的身体位置（包括使用双手）以及诸如肖像，半身和全身等不同长宽比的人体姿势中说话和唱歌。该系统还可以动画动画片。

Tiktok背后的公司表示，该框架击败了现有的技术，现有技术仍在努力扩展到动画面或上身体，从而限制了它们在实际应用中的潜力。根据一项研究纸由公司出版。

研究人员写道：“在Omnihuman中，我们引入了多型运动调节混合训练策略，使该模型可以从混合调节的数据扩展中受益。” “这克服了由于高质量数据稀缺，以前的端到端方法面临的问题。”

研究人员依靠超过18,000个小时的与人类有关的数据来训练框架，从而使其可以从文本，音频和身体运动中学习。这导致了更自然的人类视频。

该论文说：“我们的关键见解是，在培训期间合并多个条件信号，例如文本，音频和姿势可以大大减少数据浪费。”

该系统最初独立处理每个输入类型，从文本描述，参考图像，音频信号和移动数据中凝结运动的细节到紧凑的格式。然后，它逐渐将这些数据改进到现实的视频输出中，从而通过将其结果与真实视频进行比较，从而完善运动产生。

Bytedance一直在投资AI视频生成，与Meta，Microsoft和Google DeepMind等竞争对手。一月份，公司发行对其AI模型Doubao的升级，声称它的表现优于OpenAI的O1基准测试AIME。

文章主题

|||||