Alphabet旗下Deepmind再次出擊。她開發了一種新的人工智慧,稱為 AlphaZero。這次,演算法在沒有人工幹預的情況下從頭開始自行學習下圍棋、西洋棋和將棋(也稱為日本像棋)。他只獲得了三場不同的比賽的規則。
短篇小說成功的新一步
Deepmind 興奮地表示,透過使用神經網絡,AlphaZero 不僅很快就學會了掌握這些遊戲,而且還成為「歷史上最強大的玩家」。
這種對其自己的創作的熱情似乎有點不合時宜,但 Deepmind 在這一領域有著非凡的記錄。這敲響了圍棋領域人類統治機器的喪鐘。
2017 年 5 月,在短暫的職業生涯後退休之前,阿爾法圍棋它的人工智慧在三盤比賽中徹底擊敗了世界上最好的選手。
這次成功之後,Deepmind 並沒有停止在這個領域的努力。然後她創建了 AlphaGo Zero,這是一種人工智慧,可以在沒有人類監督的情況下學習並掌握圍棋。
三大前沿人工智慧橫掃
Deepmind 正是基於這項專業知識創建了 AlphaZero,然後將其與 AlphaGo Zero、世界象棋冠軍人工智慧 Stockfish 和專門研究將棋的人工智慧 Elmo 進行了競爭。
為了消除這些問題,AlphaZero 花了數百萬遊戲的時間才做到這一點。她首先隨機嘗試策略,然後使用一種稱為強化學習的技術從錯誤中學習並完善策略。
這些數以百萬計的遊戲可能需要人類花費數年的時間,但AlphaZero 只花了九個小時就掌握了國際象棋,十二個小時就掌握了將棋,十三天就掌握了圍棋,因為知道AlphaZero 在Stockfish 上四小時後就開始擊敗人工對手。
在這個學習階段,使用了不少於 5000 個 TPU、投標處理單元、谷歌專門為機器學習設計的處理器。為了概述其強大功能,TPU 每天可以在 Google Photos 伺服器上處理不少於 1 億張影像。
前所未見的攻擊與戰術
這種能力的溢出解釋了學習的速度,也解釋了AlphaZero 使用一種稱為蒙特卡羅樹搜尋的方法(用於做出下一步行動等決策)的事實,開發了以前從未見過的新策略和新動作。
這無疑是一項令人難以置信的成就。然而,我們不應該再看到機器即將統治人類。這三個遊戲雖然複雜,但有一個共同點,那就是它們可以成對玩,並且總是提供所有必需的資訊。
來源 :
Deepmind 博客