人工智慧在「一般智力」測驗中的得分能否與人類一樣高？

OpenAI 的最新軟體在通用人工智慧測試中得分為 82.8%。研究人員表示，這使其與普通人一致。

圖片來源：Krot_Studio／Shutterstock.com

人工智慧打破了一項旨在測試「一般智力」的程式的記錄，取得了與普通人相同的分數。

歷史上，研究人員一直在關注測量機器智能。為了通過測試，機器必須讓人類相信它也是一個人。，技術已經完成了這項壯舉。事實上，ChatGPT 可能已經破解了測試。然而，科學家質疑這是否可以確定真正的智力。

作為替代方案，軟體工程師兼人工智慧研究員 Francois Chollet 創建了ARC-AGI基準測試，旨在測量「通用人工智慧」（或 AGI）的軟體。 Chollet 表示，“AGI 是一個可以在訓練資料之外有效獲取新技能的系統。”

以此衡量，ChatGPT 將會失敗。該技術依靠機率和大量數據來預測任何給定輸出最有可能的單字序列。它在內容創作方面具有非凡的天賦。然而，喬萊認為，真正的通用智能並不在於技能（在本例中是生成內容），而是在於無需大量輸入就能先獲得該技能的能力。這是ChatGPT所缺乏的能力。

因此，要透過ARC-AGI在基準測試中，人工智慧必須根據網格中的彩色方塊完成一系列推理問題。它的任務是識別將一個網格轉變為另一個網格的模式，並且只提供了三個範例供學習。先前的記錄（由 Jeremy Berman 保持）為 58.5%。 Chollet 表示，這項紀錄被 OpenAI 的新 o3 系統打破，該系統的得分高達 82.8%，可以說與人類相媲美。

在一個部落格文章Chollet 將其描述為“一次重大飛躍”，代表著“適應性和泛化性方面的真正突破”。他說：「這不僅僅是漸進式的進步；這是一個新領域，需要嚴肅的科學關注。

從某個角度來看，四年前，GPT-3 的得分為 0%，並不令人印象深刻。 2024 年，GPT-4o 的表現也好不到哪裡去，只有 5%。不用說，進步速度是驚人的。不過，沒有必要操之過急。正如 Chollet 本人指出的那樣，o3 系統在一些簡單任務上仍然表現不佳。

儘管人工智慧領域取得了一些令人印象深刻的發展，但人工智慧研究人員對於我們何時應該看到真正的通用人工智慧幾乎沒有共識。有些人認為我們可以在本世紀末看到這種情況。在SingularityNET 的創辦人 Ben Goertzel 認為，到 2023 年，個人電腦的運算能力將相當於人類大腦。”

相關貼文