野性發布新的生成AI模型Omnihuman

2025-02-05

中國科技公司已經提出了一個生成的AI框架，該框架可以根據稱為Omnihuman-1的單個圖像和運動信號來創建人類高度逼真的視頻。

獸的研究人員證明該技術通過生成幾個現實的人類視頻，包括阿爾伯特·愛因斯坦和NVIDIA首席執行官詹森·黃。這些視頻顯示人類在充滿挑戰的身體位置（包括使用雙手）以及諸如肖像，半身和全身等不同長寬比的人體姿勢中說話和唱歌。該系統還可以動畫動畫片。

Tiktok背後的公司表示，該框架擊敗了現有的技術，現有技術仍在努力擴展到動畫面或上身體，從而限制了它們在實際應用中的潛力。根據一項研究紙由公司出版。

研究人員寫道：“在Omnihuman中，我們引入了多型運動調節混合訓練策略，使該模型可以從混合調節的數據擴展中受益。” “這克服了由於高質量數據稀缺，以前的端到端方法面臨的問題。”

研究人員依靠超過18,000個小時的與人類有關的數據來訓練框架，從而使其可以從文本，音頻和身體運動中學習。這導致了更自然的人類視頻。

該論文說：“我們的關鍵見解是，在培訓期間合併多個條件信號，例如文本，音頻和姿勢可以大大減少數據浪費。”

該系統最初獨立處理每個輸入類型，從文本描述，參考圖像，音頻信號和移動數據中凝結運動的細節到緊湊的格式。然後，它逐漸將這些數據改進到現實的視頻輸出中，從而通過將其結果與真實視頻進行比較，從而完善運動產生。

Bytedance一直在投資AI視頻生成，與Meta，Microsoft和Google DeepMind等競爭對手。一月份，公司發行對其AI模型Doubao的升級，聲稱它的表現優於OpenAI的O1基準測試AIME。

文章主題

|||||