當中國人工智能初創公司 DeepSeek 一月份嶄露頭角時,它引發了人們對其高效且具有成本效益的生成人工智能方法的激烈討論。但與美國競爭對手一樣,DeepSeek 的主要目標不僅僅是提高效率:該公司的目標是創造第一個真正的通用人工智能 (AGI)。
多年來,人工智能開發者——從小型初創公司到大型科技公司——一直在朝著這個難以捉摸的終點競相前進。他們表示,通用人工智能將標誌著一個關鍵的轉折點,使計算機系統能夠取代人類工人,使人工智能比人類的專業知識更值得信賴,並將人工智能定位為社會進步的終極工具。
然而,在人工智能競賽多年後,通用人工智能仍然是一個定義不明確且有爭議的概念。一些計算機科學家和公司將其視為人工智能改變社會潛力的門檻。技術倡導者認為,一旦我們擁有超級智能計算機,日常生活就會從根本上改變,影響工作、治理和科學發現的步伐。
但許多專家對我們距離人工智能驅動的烏托邦還有多遠以及通用人工智能的實用性持懷疑態度。對於 AGI 的含義,人們的共識有限,也沒有明確的衡量方法。一些人認為,AGI 的作用只不過是一個營銷術語,沒有提供關於如何最好地使用人工智能模型或其社會影響的具體指導。
加州大學伯克利分校的計算機科學家本·雷希特 (Ben Recht) 表示,在科技公司追求通用人工智能的過程中,公眾的任務是在充滿營銷炒作、科幻小說和實際科學的環境中前行。 “這變得非常棘手。這就是我們陷入困境的地方。”他說,繼續關注即將到來的通用人工智能可能會擾亂我們對現有技術的理解,並掩蓋人工智能當前的社會影響。
AGI的定義尚不清楚
“通用人工智能”一詞是在 20 世紀中葉創造的。最初,它指的是一台能夠執行人類可以執行的任何任務的自主計算機,包括泡一杯咖啡或修理汽車等體力活動。
但隨著機器人技術的進步落後於計算的快速進步,人工智能領域的大多數人轉向了更狹義的 AGI 定義:最初,這包括能夠自主執行人類在計算機上可以執行的任務的人工智能係統,最近,機器能夠執行大部分“經濟價值“人類可以在計算機上處理的任務,例如編碼和撰寫準確的散文。其他人認為 AGI 應該包含靈活的推理能力和處理許多未指定任務時的自主權。
“問題在於我們不知道自己想要什麼,”Advanced Micro Devices 機器學習工程師兼聖達菲研究所計算機科學家 Arseny Moskvichev 說道。 “由於目標定義不明確,因此也沒有實現目標的路線圖,也沒有可靠的方法來識別它。”
為了解決這種不確定性,研究人員一直在開發類似於學生考試的基準測試,以評估系統與實現 AGI 的接近程度。
例如,2019 年,法國計算機科學家、前谷歌工程師 Francois Chollet 發布了通用人工智能抽象推理語料庫,或 ARC-AGI。在此測試中,人工智能模型會重複給出一些在網格上以不同圖案排列的彩色方塊的示例。對於每個示例集,模型被要求生成一個新的網格來完成視覺模式,這項任務旨在評估靈活的推理以及模型在訓練之外獲取新技能的能力。這個設置類似於 Raven 的漸進矩陣,這是對人類推理的測試。
測試結果是 OpenAI 和其他科技公司用來指導模型開發和評估的一部分。近日,OpenAI即將發布的o3模型取得了巨大的進步ARC-AGI 與之前的 AI 模型進行了比較,這使得一些研究人員將其視為 AGI 的突破。其他人不同意。
“ARC 沒有什麼是通用的。它是如此具體和奇怪,”Recht 說。
西班牙巴倫西亞理工大學的計算機科學家 José Hernández-Orallo 表示,ARC-AGI 可能只是評估模型識別圖像的能力。他說,如果使用文本描述視覺網格,前幾代語言模型可以高精度解決類似的問題。這種背景使得 o3 的結果顯得不那麼新穎。
另外,網格配置的數量有限,並且一些人工智能模型具有大量的計算能力可供使用可以“暴力”他們糾正反應的方法是簡單地生成所有可能的答案並選擇最適合的答案——有效地將任務簡化為多項選擇問題,而不是新穎的推理問題。
為了解決每項 ARC-AGI 任務,o3 使用了大量的測試時的計算能力(和金錢)。 Chollet 說,在高效模式下運行,每項任務的成本約為 30 美元。在效率較低的環境中,一項任務的成本約為 3,000 美元。僅僅因為型號能解決問題並不意味著在類似的挑戰性任務中常規使用它是實際或可行的。
人工智能測試無法捕捉現實世界的複雜性
引起爭議的不僅僅是 ARC-AGI。確定 AI 模型是否算作 AGI 很複雜,因為每一個現有的人工智能能力測試存在缺陷。正如瑞文漸進矩陣和其他智商測試並不是人類智力的不完美衡量標準一樣,面臨不斷的批評斯坦福大學計算機科學家阿米莉亞·哈迪 (Amelia Hardy) 表示,由於 AGI 評估存在偏見,因此也存在偏見。 “真的很難知道我們正在衡量我們關心的[什麼]。”
例如,OpenAI 的 o3 發言人林賽·麥卡勒姆 (Lindsay McCallum) 表示,在一系列稱為“前沿數學基準”的異常困難問題中,o3 正確回答了超過四分之一的問題。這些問題需要專業數學家幾個小時才能解決,根據基準測試的創建者的說法。從表面上看,o3 似乎很成功。但這一成功的部分原因可能是 OpenAI 資助了基準測試的開發並擁有訪問測試數據集在開發o3的同時。這種數據污染是評估人工智能模型的一個持續的困難,特別是對於 AGI 來說,泛化和抽象超出訓練數據的能力被認為是至關重要的。
人工智能模型似乎在復雜任務上也表現得很好,比如準確回答博士級別的科學問題,而在更基本的方面失敗了,比如計算 r 的數量在“草莓”中。這種差異表明這些計算機系統處理查詢和理解問題的方式存在根本性的偏差。
然而,埃爾南德斯-奧拉洛說,人工智能開發人員並沒有收集和共享可能幫助研究人員更好地判斷原因的信息。許多開發人員只為每個基準提供一個準確度值,而不是詳細分析模型正確和錯誤回答了哪些類型的問題。專家表示,如果沒有更多細節,就不可能確定模型在哪裡遇到困難、為什麼會成功,或者是否有任何單一測試結果表明機器智能方面取得了突破。
即使模型出色地通過了特定的、可量化的測試,例如律師資格考試或者醫療委員會加利福尼亞州伯克利非營利性模型評估和威脅研究中心的計算機科學家 David Rein 表示,很難保證這些結果能夠在混亂的現實環境中轉化為專家級的人類表現。
例如,當被要求撰寫法律摘要時,生成式人工智能模型仍然會例行公事地偽造信息。儘管一項關於 GPT-4 的研究表明聊天機器人在診斷患者方面可以超越人類醫生更詳細的研究發現,類似的人工智能模型的表現比實際醫生差得多當面臨模擬現實條件的測試時。沒有研究或基準結果表明當前的人工智能模型應該是作出重大治理決策超過人類專家。
Rein 表示,OpenAI、DeepSeek 和其他公司報告的結果“並沒有告訴我們太多有關現實世界能力的信息”,儘管它們可以提供合理的信息來比較模型之間的關係。
到目前為止,研究人員主要通過向人工智能模型提供已知答案的離散問題來測試它們。然而,人類並不總是有機會知道擺在他們面前的問題是什麼,是否可以解決或在什麼時間範圍內解決。人們可以識別關鍵問題,確定任務的優先順序,最重要的是,知道何時放棄。目前還不清楚機器可以或做的事情。最先進的“自主”代理很難在線訂購披薩或雜貨。
一般智力並不決定影響
大型語言模型和神經網絡近幾個月和近幾年。 “它們肯定在很多不同方面都很有用,”雷希特說,他指出新模型能夠總結和消化數據或生成可用的計算機代碼,並且幾乎不會出現錯誤。但像 ARC-AGI 這樣衡量一般能力的嘗試並不一定能闡明人工智能模型可以用於什麼、不可以用於什麼。 “我認為它們是否具有人工智能並不重要,”他說。
根據最近的 DeepSeek 新聞,更重要的可能是每項任務成本的傳統指標。實用性取決於工具的質量以及該工具是否足夠實惠以進行擴展。智力只是等式的一部分。
AGI 應該成為人工智能開發者的指路明燈。如果實現的話,這意味著社會將迎來一個重大轉折點,屆時機器將在與人類平等或更高的基礎上獨立運作。但到目前為止,人工智能已經產生了重大的社會影響,無論是好的還是壞的,對於我們是否正在接近(或已經超越)這個轉折點還沒有達成共識,Recht、Hernández-Orallo 和 Hardy 說。
例如,科學家正在使用人工智能工具。然而,在世界各地的課堂上,生成式聊天機器人已經擾亂了評估。皮尤研究中心最近的一項調查發現,越來越多的美國青少年正在將任務外包給 ChatGPT。 2023 年的一項研究自然報告稱,大學課程中人工智能的幫助不斷增加作弊更難被發現。
如果說人工智能一旦達到通用人工智能就會帶來變革,那就是只見樹木不見森林。









