中國科技公司已經提出了一個生成的AI框架,該框架可以根據稱為Omnihuman-1的單個圖像和運動信號來創建人類高度逼真的視頻。
獸的研究人員證明該技術通過生成幾個現實的人類視頻,包括阿爾伯特·愛因斯坦和NVIDIA首席執行官詹森·黃。這些視頻顯示人類在充滿挑戰的身體位置(包括使用雙手)以及諸如肖像,半身和全身等不同長寬比的人體姿勢中說話和唱歌。該系統還可以動畫動畫片。
Tiktok背後的公司表示,該框架擊敗了現有的技術,現有技術仍在努力擴展到動畫面或上身體,從而限制了它們在實際應用中的潛力。根據一項研究紙由公司出版。
研究人員寫道:“在Omnihuman中,我們引入了多型運動調節混合訓練策略,使該模型可以從混合調節的數據擴展中受益。” “這克服了由於高質量數據稀缺,以前的端到端方法面臨的問題。”
研究人員依靠超過18,000個小時的與人類有關的數據來訓練框架,從而使其可以從文本,音頻和身體運動中學習。這導致了更自然的人類視頻。
該論文說:“我們的關鍵見解是,在培訓期間合併多個條件信號,例如文本,音頻和姿勢可以大大減少數據浪費。”
該系統最初獨立處理每個輸入類型,從文本描述,參考圖像,音頻信號和移動數據中凝結運動的細節到緊湊的格式。然後,它逐漸將這些數據改進到現實的視頻輸出中,從而通過將其結果與真實視頻進行比較,從而完善運動產生。
Bytedance一直在投資AI視頻生成,與Meta,Microsoft和Google DeepMind等競爭對手。一月份,公司發行對其AI模型Doubao的升級,聲稱它的表現優於OpenAI的O1基準測試AIME。
文章主題
|||||