中国科技公司已经提出了一个生成的AI框架,该框架可以根据称为Omnihuman-1的单个图像和运动信号来创建人类高度逼真的视频。
兽的研究人员证明该技术通过生成几个现实的人类视频,包括阿尔伯特·爱因斯坦和NVIDIA首席执行官詹森·黄。这些视频显示人类在充满挑战的身体位置(包括使用双手)以及诸如肖像,半身和全身等不同长宽比的人体姿势中说话和唱歌。该系统还可以动画动画片。
Tiktok背后的公司表示,该框架击败了现有的技术,现有技术仍在努力扩展到动画面或上身体,从而限制了它们在实际应用中的潜力。根据一项研究纸由公司出版。
研究人员写道:“在Omnihuman中,我们引入了多型运动调节混合训练策略,使该模型可以从混合调节的数据扩展中受益。” “这克服了由于高质量数据稀缺,以前的端到端方法面临的问题。”
研究人员依靠超过18,000个小时的与人类有关的数据来训练框架,从而使其可以从文本,音频和身体运动中学习。这导致了更自然的人类视频。
该论文说:“我们的关键见解是,在培训期间合并多个条件信号,例如文本,音频和姿势可以大大减少数据浪费。”
该系统最初独立处理每个输入类型,从文本描述,参考图像,音频信号和移动数据中凝结运动的细节到紧凑的格式。然后,它逐渐将这些数据改进到现实的视频输出中,从而通过将其结果与真实视频进行比较,从而完善运动产生。
Bytedance一直在投资AI视频生成,与Meta,Microsoft和Google DeepMind等竞争对手。一月份,公司发行对其AI模型Doubao的升级,声称它的表现优于OpenAI的O1基准测试AIME。
文章主题
|||||