有幾個頭條新聞在過去的一周中,關於AI聊天機器人正式通過圖靈測試。
這些新聞報導基於最近的預印本研究加州大學聖地亞哥分校的兩名研究人員在圖靈測試中進行了四個大型語言模型(LLM)。一種模型(OpenAI的GPT-4.5)被認為與人類的70%以上是無法區分的。
圖靈測試已經普及作為機器智能的最終指標。但是,關於該測試的有效性存在分歧。實際上,它具有有爭議的歷史,它引起了人們對測量機器智能的真正有效性的質疑。
那麼,這對這項新研究的意義意味著什麼?
研究發現了什麼?
認知科學家卡梅隆·瓊斯(Cameron Jones)和本傑明·卑爾根(Benjamin Bergen)的預印本研究於3月份出版,但尚未經過同行評審。它測試了4個LLM:伊麗莎,,,,,GPT-4O,,,,,呼叫-3.1-405b, 和GPT-4.5。
測試包括完成八輪對話的參與者,在這些對話中,他們作為詢問者同時與兩個證人交換文本消息。一個目擊者是人類,另一個是法學碩士。大約284名參與者被隨機分配為審訊者或證人。
要求參與者在拆分屏幕上同時與兩個證人互動五分鐘,並且測試接口模仿了傳統的消息接口。在這種互動之後,他們決定哪位目擊者是人類,哪個是AI聊天機器人。
參與者認為GPT-4.5是人類的73%,而Llama-3.1-405b是人類56%的時間。其他兩種模型(Eliza和GPT-4O)分別愚弄了參與者23%和21%的時間。
圖靈測試到底是什麼?
圖靈測試的第一次迭代是由英國數學家和計算機科學家艾倫·圖靈(Alan Turing)在1948年的題為“智能機械“最初是作為一個實驗,涉及三個人使用稱為紙機的理論機器,兩個是玩家,一個是操作員。
在1950年的出版物中”計算機和智能“,圖靈重新引入了實驗為“模仿遊戲”,並聲稱這是確定機器表現出與人類相同的智能行為的能力的一種手段。它涉及三個參與者:參與者A是女性,參與者b是男人和參與者c性別。
通過一系列問題,需要參與者C確定“ x是a和y是b”還是“ x是b,y為a”,而x和y代表兩個性別。
然後提出了一個命題:“當機器參與此遊戲中A的一部分時會發生什麼?詢問者會像這樣玩遊戲時會像男人和女人之間玩遊戲時一樣經常做出錯誤的決定嗎?”
這些問題旨在取代模棱兩可的問題:“機器可以想到嗎?”。圖靈聲稱這個問題是模棱兩可的因為它需要理解“機器”和“思考”一詞,所以單詞的“正常”用途會導致對問題的回答不足。
多年來,該實驗被普及為圖靈測試。儘管主題有所不同,但該測試仍然是關於“ x為a和y是b”還是“ x是b and y是”的審議。
為什麼這是有爭議的?
儘管被普遍為測試機智能的手段,但圖靈測試並未一致接受為準確的手段。實際上,測試經常受到挑戰。
- 行為與思考。一些研究人員認為,“通過”測試的能力是行為問題,而不是智力。因此,說一台機器可以通過模仿遊戲,但無法思考並不矛盾。
- 大腦不是機器。圖靈(Turing)主張大腦是一台機器,聲稱可以純粹用機械術語進行解釋。許多學者在此基礎上駁斥了這一主張,並質疑測試的有效性。
- 內部操作。由於計算機不是人類,因此他們得出結論的過程可能與人的結論無法媲美,因此測試不足,因為直接比較無法使用。
- 測試範圍。一些研究人員認為,僅測試一種行為不足以確定智力。

那麼LLM像人類一樣聰明嗎?
雖然預印本文章聲稱GPT-4.5通過了圖靈測試,但它也指出:
圖靈測試是替代性的量度:系統是否可以在不注意差異的情況下替代真實的人。
這意味著研究人員不支持圖靈測試是人類智能的合法跡象的想法。相反,這表明模仿人類智力 - 對測試起源的頌歌。
還值得注意的是,研究的條件並非沒有問題。例如,一個五分鐘的測試窗口相對較短。
此外,提示每個LLM都採用特定角色,但目前尚不清楚“角色”的細節和影響正在測試中。
就目前而言,可以肯定地說GPT-4.5不像人類那樣聰明,儘管它可能在說服某些人的情況下做出合理的工作。
Zena Assaad,工程學院高級講師,澳大利亞國立大學