有一天,人工智能會像人類一樣好轉Minecraft?最重要的是,由於在網絡上發布的簡單視頻,她能很快能夠更快地學習嗎?無論如何,這都是OpenAI的目標,OpenAI的目標剛剛提出了有希望的首次研究的結果。
掌握Minecraft對於人工智能來說是一個巨大的挑戰。因為Mojang的標題比計算機比故障或進行(AI現在都在吸引我們的遊戲)更複雜。這是一個非常開放的遊戲,具有靈活的規則,這就是使其魅力的原因!它為可以探索的玩家提供了幾乎完全的自由手工藝者,簡而言之,嫉妒……鎖定非常多樣化和復雜的動作,這很難教授不愉快的計算機程序。
但是,這就是Openai的一組研究人員所取得的成就。他們導致了零的模型...該模型設法“正確”到Minecraft。更好的是,他們的模型是嚴格扮演人類的,也就是說,使用接口和傳統遊戲命令:鍵盤罷工和鼠標運動。
讓我們聽到:放入Minecraft,Openai的人工智能無法從頭開始做一個夢想中的房子,甚至更少複製國王的著陸。她滿足於更為適中的任務,但她的表演遠非荒謬。因此,她設法建立了一個摘要庇護所,製造工具,並探索一個村莊以打開胸部……甚至幾次設法製作了繪製的鑽石,根據Openai的說法,這是世界上的首先。它確實是一種遠非易於獲得的工具,它需要對物體的探索,製造和組合的許多複雜階段。
扮演我的Minecraft的AI,它給出了
YouTube瓶裝的AI
Openai研究人員是如何取得這樣的結果的?答案幾乎是一個單詞:YouTube。他們利用了令人難以置信的財富和視頻的多樣性Minecraft在互聯網上“壓倒”他們的模型,然後受到他所看到的遊戲的啟發。
好吧,當然,這並不那麼簡單。遠離它。他們為VPT施洗的技術(對於視頻預處理)首先包括收集70,000小時的遊戲視頻,更專門用於初學者:教程,指南,等。這並不容易:研究人員必須使用亞馬遜機械土耳其人招募的“小手”。由於每個視頻的屏幕截圖,如果所選內容確實可用於該項目,則檢查了他們從270,000小時的起始語料庫中檢查了!
例如,他不得不將錄製的視頻放在創意模式下,或者包含可能會損害機器理解的徽標或人工製品的視頻。
最後,小小的微妙之處:為了促進嬰兒的開始,研究人員還從這些視頻中提取了一個僅包括遊戲開始的子集。
最重要的是,研究人員並沒有止步於此:他們還創建了一個模型(逆動力學模型,IDM)第二系列視頻Minecraft。這是一個小得多的語料庫(只有2,000小時),但具有非常精確的優勢。因為所有這些遊戲都是專門為經驗而進行的Minecraft經驗豐富。研究人員能夠記錄其所有鼠標運動以及在鍵盤上進行的所有操作。
然後,從本質上講,他們將此模型應用於以前收集在網絡上的70,000小時視頻中。這樣,他們的人工智能就可以“猜測”這些視頻中進行的鼠標和鍵盤動作,並從中汲取靈感。聰明的。
經過這種方式培訓後,AI已經設法在遊戲中執行一些基本任務,例如切木來製作日誌,然後是木板,然後是一張桌子工藝有四個板。當然,對於人類玩家來說,這是微不足道的一步強化學習。
很好,但還不夠
這已經是正確的,但對於我們的研究人員來說還不夠。因此,他們完善了AI,以嘗試給它更多技能,成功使用兩種不同的技術。首先,他們要求他們的人類專家Minecraft進行10分鐘的會議,在此期間,他們的目標是用基本材料製作一個小房子。
通過將這些部分集成到模型中,他們意識到,AI不僅可以製造一個適度的庇護所,而且還要進一步創建複雜物體(例如,像一塊石頭一樣)。
最後,他們還使用了增強的學習,要求其AI在空白卡中獲得十分鐘的鑽石,並通過獎勵它的努力來獲得鑽石。鑑於有必要收集,結合和手工藝者一系列連續的對象,不容易找到。但是她仍然達到了幾次,或者佔十分鐘比賽的2.5%。
但是,為什麼要學習Minecraft到AI?
顯然,Openai並沒有做所有這些嘗試在Minecraft,即使他的研究人員認為他們可以收集一百萬小時的遊戲來完善自己的模型。不,VPP首先可以為一種新的方式教導AI逐步“行動”,就像人類一樣。
“本文介紹的結果有助於為使用未在網絡上標記的大量數據以進行順序決策領域開闢道路。 »»»我們可以在Openai科學論文的結論中閱讀嗎?
為了更好地理解這個有點無罪的句子,讓我們離開Minecraft對Photoshop感興趣。我們可以想像一種類似的人工智能,在VPP中駕駛,網絡上有成千上萬的Photoshop教程,這些教程將學習在應用程序的菜單中移動,單擊以應用過濾器,以修飾照片...促進某些圖形設計師的工作!
來源 : Openai