
我們不僅在線與人工智能(AI)互動,而且比以往任何時候都多,而且比我們意識到的更多 - 因此,研究人員要求人們與四個代理商(包括一種人和三種不同類型的AI模型)交談,以了解他們是否可以分辨出差異。
1950年,計算機科學家艾倫·圖靈(Alan Turing)最初提出的“圖靈測試”最初提出為“模仿遊戲”,法官認為機器表現出智力的能力是否與人類無法區分。為了使機器通過圖靈測試,它必須能夠與某人交談,並欺騙他們以為是人類。
科學家決定通過要求500人與四名受訪者進行交談,包括人類和1960年代的AI計劃Eliza以及GPT-3.5和GPT-4,AI為CHATGPT提供支持。對話持續了五分鐘 - 之後,參與者不得不說他們是否相信自己正在與人類或AI交談。在5月9日發布給Prepint Arxiv服務器的研究中,科學家發現,參與者認為GPT-4是人類的54%,
伊麗莎,一種預先編程的系統,但沒有大型語言模型(LLM)或神經網絡體系結構,被判斷為人類的時間僅為22%。 GPT-3.5得分為50%,而人類參與者的得分為67%。
閱讀更多:“傷害我們保護自己的自然權利”:人類現在如何虐待AI,甚至不知道它
“機器可以像人類一樣,將事物融合在一起,將合理的事前事件理由融合在一起,”電氣和電子工程師研究所(IEEE)的AI研究人員內爾·沃森(Nell Watson)告訴Live Science。
“它們可能會遭受認知偏見,漫不經心地操縱,並且變得越來越具有欺騙性。所有這些元素都意味著在AI系統中表達了類似人類的散貨和怪癖,這使得它們比以前的方法更像是人類的方法,而這種方法比罐裝反應的列表更重要。”
這項研究是基於數十年來試圖使AI代理通過圖靈測試的嘗試,這與人們對AI系統所認為的人類所認為的“廣泛社會和經濟後果”的共同擔憂。
科學家還認為,對圖靈測試的方法過於簡單,說“風格和社會情感因素在通過圖靈測試中比傳統的智力概念更大。”這表明我們一直在尋找機器智能的位置。
“原始的智力只有那麼遠。真正重要的是足夠聰明地了解情況,他人的技能和同理心將這些元素融合在一起。功能只是AI價值的一小部分 - 他們能夠理解他人的價值觀,偏好和邊界的能力,這也是必不可少的。這些質量將使AI充滿忠誠和可靠的生活。
沃森補充說,這項研究代表了未來人機相互作用的挑戰,我們將對相互作用的真實本質變得越來越偏執,尤其是在敏感問題上。她補充說,這項研究強調了GPT時代AI的變化。
她說:“伊麗莎(Eliza)僅限於罐裝回應,這極大地限制了其能力。它可能會欺騙某人五分鐘,但很快限制就會變得很明顯。” “語言模型是無限的靈活性,能夠綜合對廣泛主題的響應,以特定的語言或社交態度說話,並以角色驅動的個性和價值觀來描繪自己。這是從人類手工編寫的事物中向前邁出的巨大一步,無論人類的手工巧妙,無論多麼聰明和仔細。”