Google Deepmind的Genie AI模型旨在通過引入一項開創性的技術將圖像轉換為可玩的視頻遊戲,從而在遊戲行業中引起波浪。
“最近幾年的出現了生成的AI,模型能夠通過語言,圖像甚至視頻產生新穎和創造性的內容,” Genie Team在博客文章中說。
它補充說:“今天,我們引入了一種新的生成AI的範式,生成的交互式環境(Genie),可以從單個圖像提示中生成交互式,可播放的環境。”
Google DeepMind的Genie AI模型
Genie AI模型憑藉其謙虛的110億參數架構,已在龐大的數據集中進行了培訓,其中包括超過200,000個小時的錄像,描繪了從事2D平台遊戲風格遊戲的個人。 Genie自主完成了這一壯舉,而沒有人類的監督,僅依靠它已被餵養的廣泛視覺數據。
與傳統方法不同,Genie通過僅需要單個圖像(無論是照片,素描還是AI生成的渲染)來簡化遊戲開發過程,以生成對用戶輸入響應的功能齊全的遊戲環境。
這種一步轉換代表了與傳統的遊戲開發實踐的重大不同。 Google的公告位置將Genie作為生成AI的顯著進步,引入了一種用於創建交互式環境的新型範式。
Genie使用在互聯網視頻中訓練的基礎世界模型超越了傳統的局限性,使用戶能夠與他們的想像中產生的虛擬世界互動。
這位精靈團隊寫道:“精靈可以通過從未見過的圖像來提示,例如現實世界的照片或素描,使人們能夠與他們想像中的虛擬世界互動 - 基本上是一個基礎世界模型。儘管沒有任何動作標籤,但這是有可能的。”
它補充說:“取而代之的是,Genie是從大型公開互聯網視頻的大量數據集中培訓的。我們專注於2D平台遊戲和機器人技術的視頻,但我們的方法是一般的,應該適用於任何類型的域,並且可以擴展到更大的Internet數據集。”
互動世界的新時代
儘管沒有明確的動作標籤,但Genie能夠從互聯網視頻中辨別細粒度控制的能力也是一個值得注意的成就。
Genie通過複雜的學習過程來識別圖像中的可控元素,並確定管理生成環境的潛在動作,從而確保跨不同提示的一致性。
此外,Genie的多功能性超出了靜態圖像的範圍,這表明了其動畫文本對圖像生成的框架並將人為設計的草圖或真實世界的照片栩栩如生的能力。
這種動態功能為超出傳統界限以外的沉浸式遊戲體驗提供了機會。據團隊稱,除了遊戲之外,吉妮還具有培訓通才AI特工的潛力,為人工智能開發提供了多樣化的世界課程。
Genie為能夠通過模擬各種環境和掌握潛在動作來導航複雜的虛擬景觀的精緻AI代理為基礎。
Genie團隊指出:“精靈介紹了能夠從圖像或文本中產生整個互動世界的時代。我們還認為,這將是培訓未來的通才AI代理商的催化劑。”