當中國人工智能初創公司DeepSeek在一月份突然進入現場時,它引起了人們對其有效且具有成本效益的生成AI方法的激烈chat不休。但是,像美國競爭對手一樣,DeepSeek的主要目標比效率更模糊:該公司旨在創建第一個真正的人工通用情報或AGI。
多年來,AI開發人員(從小型初創公司到大型科技公司)一直朝這個難以捉摸的終點競爭。他們說,AGI將標誌著一個關鍵的轉折點,使計算機系統能夠取代人類工人,使AI比人類專業知識更值得信賴,並將人工智能定位為社會發展的最終工具。
然而,在AI種族的幾年中,AGI仍然是一個明確且有爭議的概念。一些計算機科學家和公司將其視為AI改變社會潛力的門檻。科技擁護者建議,一旦我們擁有超智能計算機,日常生活就可能會改變,影響工作,治理和科學發現的步伐。
但是,許多專家對我們與AI驅動的烏托邦和AGI的實際實用性有多近。關於AGI的含義有限,沒有明確的方法來衡量它。有人認為,AGI的功能不僅僅是一個營銷術語,沒有提供有關如何最好地使用AI模型或其社會影響的具體指導。
加州大學伯克利分校的計算機科學家本·雷希特(Ben Recht)說,在科技公司對AGI的追求中,公眾的任務是導航一個充滿營銷炒作,科幻和實際科學的景觀。 “這變得非常棘手。那就是我們卡住的地方。”他說,繼續專注於即將到來的AGI主張,可能會使我們對手頭技術的理解混淆,並掩蓋了AI當前的社會影響。
AGI的定義不清楚
“人工通用情報”一詞是在20世紀中葉創造的。最初,它表示一台能夠執行人類可能執行任何任務的自動駕駛計算機,包括諸如製作一杯咖啡或修理汽車的體育鍛煉。
但是,隨著機器人技術的進步落後於計算的快速進步,大多數人AI領域都轉移到了AGI的狹窄定義上:最初,這包括可以自主執行人類可以在計算機上可以自主執行任務的AI系統,而最近,能夠執行大多數人只能執行大多數“只有”的機器。在經濟上有價值人類可以在計算機上處理的任務,例如編碼和寫作準確的散文。其他人則認為AGI應該涵蓋靈活的推理能力和處理許多未指定任務時的自主權。
“問題是我們不知道我們想要什麼,” Santa Fe Institute高級微設備和計算機科學家的機器學習工程師Arseny Moskvichev說。 “由於目標的定義很差,因此也沒有達到目標的路線圖,也沒有可靠的方法來識別它。”
為了解決這種不確定性,研究人員一直在開發與學生考試相似的基準測試,以評估系統與AGI的距離。
例如,2019年,法國計算機科學家和前Google工程師Francois Chollet發布了人工通用情報的抽象推理語料庫,或弧阿吉。在此測試中,反复給予AI模型的一些彩色正方形示例,該彩色正方形在網格上以不同的模式排列。對於每個示例集,然後要求模型生成一個新的網格以完成視覺模式,旨在評估靈活推理的任務以及模型在培訓之外獲得新技能的能力。這種設置類似於Raven的進步矩陣,這是對人類推理的測試。
測試結果是OpenAI和其他科技公司用來指導模型開發和評估的一部分。最近,Openai即將發布的O3型號取得了廣泛的進步與以前的AI模型相比,在Arc-Agi上,一些研究人員將其視為AGI的突破。其他人不同意。
“關於弧線沒有什麼是一般的。這是如此具體和怪異,” Recht說。
西班牙政治上的計算機科學家JoséHernández-Orallo表示,Arc-Agi可能會評估模型識別圖像的能力。他說,如果使用文本描述了視覺網格,則前幾代語言模型可以以高度準確地解決類似的問題。這種背景使O3的結果看起來不那麼新穎。
另外,網格配置數量有限,一些具有大量計算能力的AI型號可以“蠻力”他們僅通過產生所有可能的答案並選擇最適合最適合的答案來糾正響應的方式 - 有效地將任務減少到多項選擇問題,而不是一種新穎的推理。
為了應對每個ARC-AGI任務,O3使用了大量測試時間計算能力(和金錢)。 Chollet說,在高效模式下運行,每項任務的費用約為30美元。在效率低下的環境中,一項任務的費用約為3,000美元。只是因為模型能解決該問題並不意味著將其定期用於類似挑戰性的任務是實際或可行的。
有爭議的不僅是Arc-Agi。確定AI模型是否將AGI算作AGI是否使以下事實變得複雜每一個AI能力的可用測試存在缺陷。正如烏鴉的進步矩陣和其他智商測試是人類智力和面臨不斷的批評斯坦福大學的計算機科學家阿米莉亞·哈迪(Amelia Hardy)說,由於他們的偏見,AGI評估也是如此。 “很難知道我們正在衡量[我們關心的東西]。”
公司發言人Lindsay McCallum說,例如,打開AI的O3正確響應了四分之一以上的問題,其中一系列非常困難的問題稱為邊境數學基準。這些問題花幾個小時的時間解決根據基準的創建者的說法。從表面上看,O3似乎很成功。但是,這一成功可能部分是由於Openai為基準的發展提供了資金並擁有訪問測試數據集在開發O3時。這種數據污染是評估AI模型的持續困難,尤其是對於AGI而言,在訓練數據中概括和抽象的能力被認為是至關重要的。
AI模型似乎也可以在復雜的任務上表現出色,例如準確回答博士學位級別的科學問題,同時失敗了更基本的,例如計算R的數量在“草莓”中。這種差異表明這些計算機系統如何處理查詢和理解問題的根本錯誤。
但是,AI開發人員並沒有收集和分享可能有助於研究人員更好地衡量原因的信息。許多開發人員僅為每個基準標準提供一個精確的值,而不是詳細的細分,即模型正確和錯誤地回答了哪些類型的問題。專家說,如果沒有其他細節,就無法確定模型在哪裡掙扎,為什麼成功或任何單個測試結果表明機器智能的突破。
即使模型通過具有鮮豔顏色的特定,可量化的測試,例如律師考試或者醫療委員會在加利福尼亞州伯克利的非營利模型評估和威脅研究的計算機科學家戴維·賴恩(David Rein)說,幾乎沒有保證這些結果將轉化為凌亂,現實世界中的專家級人類表現。
例如,當被要求撰寫法律摘要時,生成的AI模型仍定期構建信息。儘管一項對GPT-4的研究表明聊天機器人可以在診斷患者方面勝過人類醫生,更詳細的研究發現,可比的AI模型的表現遠遠遠遠不止於實際醫生當面對模仿現實世界條件的測試時。並且沒有研究或基準結果表明當前的AI模型應為做出重大治理決定對人類專業的人。
Rein說,Openai,Deepseek和其他公司報告的基準報告了“對現實世界中能力的信息不多的信息”,儘管他們可以提供合理的信息以將模型與彼此進行比較。
到目前為止,研究人員在很大程度上通過為他們提供了知道答案的離散問題來測試AI模型。但是,人類並不總是有一個奢侈知道面前的問題,無論是可以解決的還是什麼時間範圍。人們可以確定關鍵問題,確定任務的優先級,並至關重要地知道何時放棄。還不清楚那個機器可以或做。最先進的“自主”代理商難以在線訂購比薩餅或雜貨。
一般情報不決定影響
大型語言模型和神經網絡有最近幾個月和幾年。 Recht說:“它們絕對有用,” Recht指出,較新的模型總結和消化數據或生成幾乎沒有錯誤的可用計算機代碼的能力。但是,像Arc-Agi這樣的嘗試衡量一般能力的嘗試並不一定會闡明AI模型可以和不能使用的模型。他說:“我認為它們是否通常人為地聰明並不重要。”
根據最近的DeepSeek新聞,可能更重要的是每任務成本的傳統指標。公用事業是由工具的質量以及該工具是否負擔得起的擴展。情報只是方程式的一部分。
AGI應該是AI開發人員的指導光。如果實現的話,這是為了預示社會的主要轉折點,超越這些機器將比人類獨立或更高的地位獨立運作。但是到目前為止,AI對我們是否接近(或已經超過)這個轉折點,埃爾南德斯 - 奧拉洛(Hernández-Orallo)和哈迪(Hardy)表示,AI對我們是否接近(或已經超過)沒有任何共識。
例如,科學家正在使用AI工具。然而,在全球教室中,生成的聊天機器人卻破壞了評估。皮尤研究中心最近的一項調查發現,越來越多的美國青少年是將作業外包給chatgpt。以及2023年的研究自然據報導,在大學課程中增加了AI援助已成為欺騙更難檢測。
要說,一旦我們到達Agi,AI就會變得變革性,而忽略了森林的所有樹木。