中國科技公司提出了一個生成式人工智能框架,可以基於單個圖像和運動信號(稱為 OmniHuman-1)創建高度逼真的人類視頻。
字節跳動的研究人員證明了該技術通過生成幾個逼真的人類視頻來實現,其中包括阿爾伯特·愛因斯坦和英偉達首席執行官黃仁勳。這些視頻展示了人類以具有挑戰性的身體姿勢(包括用手)以及不同的長寬比(例如肖像、半身和全身)說話和唱歌。該系統還可以製作卡通動畫。
TikTok 背後的公司表示,該框架擊敗了現有技術,而現有技術仍在努力擴展到動畫面部或上半身之外,限制了它們在實際應用中的潛力。一項研究表明,OmniHuman 優於現有方法,因為它可以根據微弱信號輸入(尤其是音頻)生成極其逼真的人類視頻紙由公司發布。
研究人員寫道:“在 OmniHuman 中,我們引入了多模態運動調節混合訓練策略,使模型能夠從混合調節的數據擴展中受益。” “這克服了以前的端到端方法由於缺乏高質量數據而面臨的問題。”
研究人員依靠超過 18,000 小時的人類相關數據來訓練該框架,使其能夠從文本、音頻和身體動作中學習。這使得人類視頻看起來更加自然。
該論文表示:“我們的主要見解是,在訓練過程中結合多種條件信號,例如文本、音頻和姿勢,可以顯著減少數據浪費。”
該系統最初獨立處理每種輸入類型,將文本描述、參考圖像、音頻信號和運動數據的運動細節壓縮為緊湊的格式。然後,它逐步將這些數據增強為真實的視頻輸出,通過將其結果與真實視頻進行比較來完善運動生成。
字節跳動一直在投資人工智能視頻生成,與 Meta、微軟和谷歌 DeepMind 等公司競爭。 1月份,公司釋放其AI模型豆寶的升級,聲稱其性能優於OpenAI的o1基準測試AIME。
文章主題
|||||









