中国科技公司提出了一个生成式人工智能框架,可以基于单个图像和运动信号(称为 OmniHuman-1)创建高度逼真的人类视频。
字节跳动的研究人员证明了该技术通过生成几个逼真的人类视频来实现,其中包括阿尔伯特·爱因斯坦和英伟达首席执行官黄仁勋。这些视频展示了人类以具有挑战性的身体姿势(包括用手)以及不同的长宽比(例如肖像、半身和全身)说话和唱歌。该系统还可以制作卡通动画。
TikTok 背后的公司表示,该框架击败了现有技术,而现有技术仍在努力扩展到动画面部或上半身之外,限制了它们在实际应用中的潜力。一项研究表明,OmniHuman 优于现有方法,因为它可以根据微弱信号输入(尤其是音频)生成极其逼真的人类视频纸由公司发布。
研究人员写道:“在 OmniHuman 中,我们引入了多模态运动调节混合训练策略,使模型能够从混合调节的数据扩展中受益。” “这克服了以前的端到端方法由于缺乏高质量数据而面临的问题。”
研究人员依靠超过 18,000 小时的人类相关数据来训练该框架,使其能够从文本、音频和身体动作中学习。这使得人类视频看起来更加自然。
该论文表示:“我们的主要见解是,在训练过程中结合多种条件信号,例如文本、音频和姿势,可以显着减少数据浪费。”
该系统最初独立处理每种输入类型,将文本描述、参考图像、音频信号和运动数据的运动细节压缩为紧凑的格式。然后,它逐步将这些数据增强为真实的视频输出,通过将其结果与真实视频进行比较来完善运动生成。
字节跳动一直在投资人工智能视频生成,与 Meta、微软和谷歌 DeepMind 等公司竞争。 1月份,公司释放其AI模型豆宝的升级,声称其性能优于OpenAI的o1基准测试AIME。
文章主题
|||||








