在沒有任何規則或先驗資訊的情況下,一台簡單的計算機已經學會如何玩 49 種經典遊戲雅達利遊戲在短短兩週內 - 它已經學會了彈得非常好。 但最令人印象深刻的是,它使用的谷歌構建的演算法甚至不是專門為了玩遊戲而構建的,只是為了學習自己的經驗。
除了電腦現在可以在以下方面擊敗我們這一事實之外,這意味著什麼?太空侵略者和爆發, 也棋,德州撲克和解魔術方塊? 事實證明,我們現在已經有了通用學習演算法的早期階段,可以幫助機器人和電腦成為我們交給它們的任何任務的專家,這是一件非常重要的事情。
「這是第一次有人建立了一個單一的通用學習系統,可以直接從經驗中學習,以掌握各種具有挑戰性的任務,」主要研究人員之一德米斯·哈薩克斯(Demis Hassabis )說,告訴威廉·赫克維茨福斯力學。哈薩克是 DeepMind Technologies 的共同創辦人之一,該公司開始開發該演算法,據報導去年被Google以 4 億美元收購。
出版今天在自然,該團隊解釋了深度學習演算法(稱為深度 Q 網路或 DQN)如何能夠掌握以下遊戲:拳擊、太空侵略者和星砲手沒有任何背景資訊。 其中包括諸如要注意哪些“壞人”以及如何使用控制等詳細資訊。 它只能存取分數和螢幕上的像素,才能弄清楚如何成為專家玩家。
透過一遍又一遍地玩遊戲,並從錯誤中學習,演算法首先學習如何正確玩遊戲,然後在兩週內學習如何獲勝。
當然,這並不是第一個教會電腦成為專家遊戲玩家的程式。 就在 20 多年前,一個名為 TD-Gammon 的程式掌握了雙陸棋。 但不同之處在於,TD-Gammon 從未在國際象棋和西洋跳棋等類似遊戲中表現出色,澳大利亞國家信息通信技術協會和新南威爾士大學的計算機科學家托比·沃爾什(Toby Walsh) 並未參與這項研究,在對話中解釋過。
另一方面,由於兩項技術進步,DQN 演算法可以掌握一系列不同的遊戲。
首先,DQN 依賴一種稱為 Q 學習的正增強學習方法。 這基本上意味著演算法將盡其所能——按下每個按鈕並像瘋子一樣移動操縱桿——以便更接近“Q”,這是計算機科學家設定為最終獎勵的值。 在這個實驗中,獎勵就是遊戲得分,越高越好。
「了解如何在像這樣的遊戲中最大化你的分數太空侵略者,你必須認識到一千個不同的事實:像素化的外星人如何移動,射擊他們可以讓你得分,何時射擊,射擊的作用,你控制坦克的事實,以及更多的假設,其中大部分是人類玩家直觀地理解。 然後,如果演算法更改為賽車遊戲、橫向捲軸遊戲或吃豆人,它必須學習一套全新的事實。
但這就是第二個改進的地方 - DQN 建立在一個網絡之上,該網絡的靈感來自於人腦將背景噪聲與重要信息分開的能力。 這意味著 DQN 能夠根據其先前的經驗吸收有價值的訊息,並從中學習。
雖然這是一個了不起的突破,但值得注意的是,這還不是真正的通用學習演算法。 程式設計師仍然必須為程式設定一個 Q 值,以便它能夠學習——一個真正的智慧系統將能夠制定自己的目標,以掌握新技能。
DQN 永遠不會像人類那樣真正理解它正在玩的遊戲,它只是學習如何做才能獲得更好的分數。 因此,有些遊戲 DQN 無法掌握,例如蒙特祖瑪的復仇(您可以閱讀有關這些的更多信息於華盛頓郵報)。
未來,團隊希望擴展演算法,使其能夠幫助篩選大量科學數據,並得出自己的結論。 「我們開發的這個系統只是通用演算法威力的展示,」開發人員之一 Koray Kavukcuoglu 說道。告訴赫克維茨。 “這個想法是讓系統的未來版本能夠推廣到任何順序決策問題。”
了解有關 DQN 如何學習的更多信息自然影片下面,就去測試一下你自己的 Atari 技能吧這裡。
接下來閱讀此內容:這個電腦程式「解決」了德州撲克