研究人員聲稱，GPT-4通過了圖靈測試

2024-06-14

（圖片來源：Jesussanz/Getty Images）

我們不僅在線與人工智能（AI）互動，而且比以往任何時候都多，而且比我們意識到的更多 - 因此，研究人員要求人們與四個代理商（包括一種人和三種不同類型的AI模型）交談，以了解他們是否可以分辨出差異。

1950年，計算機科學家艾倫·圖靈（Alan Turing）最初提出的“圖靈測試”最初提出為“模仿遊戲”，法官認為機器表現出智力的能力是否與人類無法區分。為了使機器通過圖靈測試，它必須能夠與某人交談，並欺騙他們以為是人類。

科學家決定通過要求500人與四名受訪者進行交談，包括人類和1960年代的AI計劃Eliza以及GPT-3.5和GPT-4，AI為CHATGPT提供支持。對話持續了五分鐘 - 之後，參與者不得不說他們是否相信自己正在與人類或AI交談。在5月9日發布給Prepint Arxiv服務器的研究中，科學家發現，參與者認為GPT-4是人類的54％，

伊麗莎，一種預先編程的系統，但沒有大型語言模型（LLM）或神經網絡體系結構，被判斷為人類的時間僅為22％。 GPT-3.5得分為50％，而人類參與者的得分為67％。

“機器可以像人類一樣，將事物融合在一起，將合理的事前事件理由融合在一起，”電氣和電子工程師研究所（IEEE）的AI研究人員內爾·沃森（Nell Watson）告訴Live Science。

“它們可能會遭受認知偏見，漫不經心地操縱，並且變得越來越具有欺騙性。所有這些元素都意味著在AI系統中表達了類似人類的散貨和怪癖，這使得它們比以前的方法更像是人類的方法，而這種方法比罐裝反應的列表更重要。”

這項研究是基於數十年來試圖使AI代理通過圖靈測試的嘗試，這與人們對AI系統所認為的人類所認為的“廣泛社會和經濟後果”的共同擔憂。

科學家還認為，對圖靈測試的方法過於簡單，說“風格和社會情感因素在通過圖靈測試中比傳統的智力概念更大。”這表明我們一直在尋找機器智能的位置。

“原始的智力只有那麼遠。真正重要的是足夠聰明地了解情況，他人的技能和同理心將這些元素融合在一起。功能只是AI價值的一小部分 - 他們能夠理解他人的價值觀，偏好和邊界的能力，這也是必不可少的。這些質量將使AI充滿忠誠和可靠的生活。

沃森補充說，這項研究代表了未來人機相互作用的挑戰，我們將對相互作用的真實本質變得越來越偏執，尤其是在敏感問題上。她補充說，這項研究強調了GPT時代AI的變化。

她說：“伊麗莎（Eliza）僅限於罐裝回應，這極大地限制了其能力。它可能會欺騙某人五分鐘，但很快限制就會變得很明顯。” “語言模型是無限的靈活性，能夠綜合對廣泛主題的響應，以特定的語言或社交態度說話，並以角色驅動的個性和價值觀來描繪自己。這是從人類手工編寫的事物中向前邁出的巨大一步，無論人類的手工巧妙，無論多麼聰明和仔細。”

相關貼文