「人類與否」：數百萬人剛剛參加了線上圖靈測試

玩家被要求確定他們是在與人交談還是與機器交談。

人工智慧（AI）已經通過了嚴格的測試，證明它們比人類更能通過網路上「我不是機器人」的測試測試。但他們能通過圖靈測試嗎？

圖靈測試（著名數學家和電腦科學家艾倫·圖靈最初更謙虛地稱為「模仿遊戲」）涉及將人類參與者與對話夥伴分開，並要求他們確定自己是人類還是人工智慧。在原始版本中，人類評估者看到一個人和一個人工智慧之間的文字對話，並且必須確定哪個是哪個。

在後來思想實驗的修改中，實驗者直接測試聊天機器人，讓評估者與人工智慧本身對話。在最近的一次這樣的實驗– 在 Chat GPT 和 Google Bard 等大型語言模型 (LLM) 聊天機器人激增之後進行 – 超過一百萬人參與其中。

該團隊在一份尚未經過同行評審的預印本論文中詳細介紹了他們如何創建輪盤賭遊戲。志工可以去玩一個名為“人與否，其中他們唯一的任務是確定他們是在與人工智慧還是人類同胞交談。遊戲要么給他們分配一個同伴，要么給他們一個人工智慧。

該團隊為機器人創建了背景故事，這些背景故事是使用幾種不同的聊天人工智慧創建的。

團隊在研究中寫道：“我們創建了各種各樣的機器人，每個機器人都有其獨特的個性和目標。” “我們的動機是希望讓對話變得有趣，減少重複用戶的重複性，並掩蓋機器人的跡象，使檢測更具挑戰性。”

論文中包含的這樣一個人物簡介——亞當——被告知要嘗試讓其他用戶相信他是來自未來的人。雖然這聽起來不像人類會做的事情，但這可能是假裝人工智慧的人類會做的事情，增加了遊戲的難度和樂趣。

在第一個月，他們從 150 萬唯一用戶那裡獲得了超過 1000 萬個猜測，這使其成為一個不錯的分析資料集。

「從大量的互動中，我們發現了幾種類型的人類玩家，他們在遊戲的不同方面表現出色：擅長識別人類同胞的玩家，令人信服地表達自己人性的玩家，以及熟練模仿機器人的玩家。」

實驗中的人類非常關注拼字錯誤和俚語，認為它們通常不會來自機器，但其中許多也是由人工智慧聊天機器人模擬的。當人類試圖讓伴侶相信他們是人類時，他們經常使用更多的俚語和更多的拼字錯誤，以及回答個人和情感問題。

他們寫道：「一種更獨特的方法是使用粗俗語言，表達有爭議的觀點，並提出人工智慧機器人往往避免回答的訊息。」並補充說，「使用粗魯語言在86.7% 的情況下暴露了玩家的人性」。

總體而言，人類僅在 68% 的遊戲中正確猜出了伴侶的身份。當他們的對手是聊天機器人時，他們猜測正確的機率為 60%，而他們能夠正確識別自己正在與人類同伴交談的機率為 73%。

團隊承認該測試有其局限性，包括遊戲的性質可能會引起參與者的懷疑並影響他們在對話中的策略，但表示它提供了對人類用來識別我們是在與人類同胞交談還是在與人類交談的策略的深入了解。

該論文可在預印本伺服器上取得arXiv。