我們總是聽到如何(人工智慧)和自動化技術將在不久的將來取代我們的工作,現在美國的研究人員開發了一個能夠完成 11 年級任務的人工智慧程序SAT水平幾何問題。這也不是一個理論主張——他們實際上給了軟體來自 SAT 的真實問題(包括該程式以前從未見過的問題),以了解它的表現。
那麼進展如何呢?嗯,相當令人驚訝的是,考慮到以前從未這樣做過——但我們也可以沾沾自喜地相信人工智慧不會很快取代人類數學家。在練習題中,該系統的得分高達 61%,但在關鍵時刻表現不佳,官方 SAT 問題的得分僅為 49%(哎喲,太接近了!)。
這研究結果,本週在自然語言處理實證方法會議在里斯本,展示人工智慧系統已經取得了多大的進步,但也顯示仍有相當大的改進空間。 (我們想像人工智慧的成績單會讀到一些經典的內容:「人工智慧顯示出希望,但需要運用自己來獲得更好的成績。」)
你可以看到軟體線上測試的問題類型。如果你之前學過這個級別的數學,那麼這並不是特別困難的東西(對於人類來說),但研究人員面臨的真正挑戰是教軟體正確識別頁面上的所有視覺信息,以便理解什麼它被要求做。
作為研究人員之一,華盛頓大學的阿里法哈迪 (Ali Farhadi) 告訴約翰馬爾科夫 (John Markoff)紐約時報即使是兒童也很容易理解的視覺標記(例如,測試圖中繪製的箭頭)目前還不是最先進的人工智慧能夠在上下文中正確識別的東西。
“我的許多同事都說機器視覺問題已經解決了,”法哈迪說。 “我的回答是,’解決了這個問題後給我打電話。’”
雖然人工智慧並不總是能夠準確地理解問題,但它在 SAT 數學水平上獲得及格分數或接近及格分數這一事實本身就是一個相當驚人的成就。也許並非總是如此,但在很多時候,該軟體可以結合對頁面上的圖表、箭頭、數字、形狀和書面句子的足夠理解,以正確識別和回答向其提出的幾何問題。
下一步:哲學 101!