自從1997年卡斯帕羅夫對戰深藍失敗以來,我們就知道國際象棋中機器比人強。今天,它在剛提交到網站上發表的一篇科學文章中展示了最新版本的人工智慧 AlphaZeroarXiv。
神經網路學會了下西洋棋,也學會了將棋(一種複雜程度較高的日本像棋遊戲),最後它先進行了自我訓練。然後,他在短短四個小時內就超越了明星電腦國際象棋程式 Stockfish 的水平。還用不到兩個小時的時間擊敗了人造將棋大師Elmo。最後,終於取得了領先阿爾法狗李– 八小時後擊敗李世石的人工智慧。然後他在一場節奏極其快的 100 場比賽中直接面對這些冠軍軟體。他並不是每次都獲勝,承認了一些失敗和平局,但基本上取得了勝利。總共,他花了 24 小時才成為這三場單獨比賽中的最佳球員。
從頭開始學習
請記住,以前的版本,阿爾法狗零式去年 10 月,它已經證明了它有能力在短短 40 天內擊敗所有圍棋人工智慧冠軍。 AlphaZero 依賴稍微不同的演算法。“這是一個更通用的版本”,在其文章中表示 DeepMind 團隊。因此,它並不是專門為贏得圍棋而設計的,而是為了在任何組合遊戲中獲勝而設計的。由於該公司僅使用 4 個 TPU(專為機器學習程式設計的處理器)就擁有巨大的運算能力,因此始終採用非常特殊的電腦配置。至於AlphaGo零號。
方法也保持不變。“這是關於使用無監督強化學習,也就是說,從頭開始”巴黎第九大學教授、人工智慧專家特里斯坦·卡澤納夫 (Tristan Cazeneuve) 評論道。我們的想法不是依靠人類玩的數以百萬計的遊戲來學習並模仿最精彩的動作,而是為了進步« 白板 »,也就是說,只有透過自己的實驗和對戰。以遊戲規則為唯一起點。
“DeepMind 這次剛剛證明的是它有能力推廣其演算法,現在可以考慮在其他領域重用””,特里斯坦·卡澤納夫強調。這增強了有一天使用從這些能源、運輸甚至生物資訊實驗中得出的軟體的希望。