圖靈測試：它是什麼，可以通過它以及限制

圖靈測試是什麼？

圖靈測試是確定機器是否可以證明人類智能的一種看似簡單的方法：如果機器可以與人進行對話而不被視為機器的對話，它已經證明了人類的智能。

圖靈測試是在1950年由數學家和計算先驅艾倫·圖靈（Alan Turing）發表的一篇論文中提出的。它已成為理論和發展的基本動機人工智慧(人工智慧).

關鍵要點

圖靈測試測量了測試主題的智能，以確定機器是否可以證明智力。
根據測試，計算機程序可以認為其反應是否可以欺騙人類，也是人類。
並非每個人都接受圖靈測試的有效性，但是通過它對於人工智能開發人員來說仍然是一個重大挑戰。
圖靈測試存在變化，以及在不同AI測試中提出問題的方法的修改。
圖靈測試有幾個局限性，包括需要受控的環境，沒有專門的智力定義，並且需要適應不斷發展的技術進步。

圖靈測試的歷史

艾倫·圖靈（Alan Turing）開發了一些計算機科學的基本概念，同時搜索第二次世界大戰期間打破編碼的德國信息的更有效的方法。戰爭結束後，他開始考慮人工智能。在他的1950年論文中，圖靈首先提出了一個問題：“機器可以認為嗎？”預測計算機會超出時間的局限性，圖靈設計了他認為的測試，可以確定計算機是否可以“聰明”以使其被誤認為是人類的測試。

該測試是在法官經營的審訊室進行的。測試對象，一個人和計算機程序被隱藏。法官與雙方進行對話，並試圖確定哪個是人類，哪些是基於對話質量的計算機。圖靈得出的結論是，如果法官無法說出差異，計算機就成功證明了人類的智能。也就是說，它可以想到。

在非常基本的情況下，幾台早期的計算機被欺騙了人類。 1966年，約瑟夫·韋森鮑姆（Joseph Weizenbaum）創建了伊麗莎（Eliza），該機器拿了特定的單詞並將其轉換為完整的句子。伊麗莎（Eliza）是欺騙人類測試人員認為它是人類的最早計算機之一。

不到十年後，一個名為Parry的聊天機器人被建模是為了模仿偏執型精神分裂症的行為。要求一組精神科醫生分析與真實患者和招架對話的對話。當被要求確定哪些成績單是計算機程序時，該組只能在48％的時間內識別機器。伊麗莎（Eliza）和帕里（Parry）的批評者指出，未滿足圖靈測試的完整規則，也不表明完全的機器智能。

今天的圖靈測試

圖靈測試具有其批評者，但它仍然是對人工智能項目成功的衡量標準。 Turing測試的一個更新版本的人類法官不止一個人與這兩個主題進行詢問和聊天。如果經過五分鐘的對話後，有超過30％的法官得出結論是計算機是人類，則該項目將被認為是成功的。

Loebner獎是一項年度圖靈測試比賽，由美國發明家和激進主義者休·洛布納（Hugh Loebner）於1991年啟動。 Loebner創建了其他規則，要求人類和計算機程序與四個法官中的每一位進行25分鐘的對話。獲勝者是該計劃獲得最多選票和最高排名的計算機。

2014年，雷丁大學的凱文·沃里克（Kevin Warwick）舉辦了一場圖靈測試比賽，以紀念艾倫·圖靈（Alan Turing）死亡的60週年。電腦聊天機器人尤金·戈斯特曼（Eugene Goostman）擁有一個13歲男孩的角色，他通過確保33％的法官的選票在技術上通過了圖靈測試。

在2024年2月的研究項目中，據說Chatgpt通過了圖靈測試。但是，測試將人為智能的機器人對隨機抽樣的人（學生）的響應與預定問題進行了比較，然後根據“五巨頭”個性特徵對回答進行了評分。研究人員得出結論：“……AI和人類行為非常相似。”這並不奇怪，因為該計劃的培訓包括來自各種來源的人類撰寫的材料。當它使用人類提供和創建的思想，思想，信息和數據時，它的反應自然似乎是人類的，對通過測試進行的一些人產生了疑問。儘管如此，其他人認為它已經過去了。

圖靈測試版本

圖靈測試有幾種變體，所有這些都具有檢測受訪者是人類還是機器的目的相同的意圖。每種變化都採用不同的方法來詢問受訪者不同的問題並評估回答。

模仿遊戲

圖靈測試的早期應用之一，模仿遊戲版本通常利用三個方。第一個人是男性，第二個人是女性，第三人稱負責確定前兩個人的性別。第一人稱通常是試圖欺騙第三人稱的任務，而第二人則經常負責試圖幫助第三人稱正確識別每個性別。

模仿遊戲的未來迭代已經演變成雙方試圖欺騙第三人的錯誤識別性別。無論如何，模仿遊戲的目的是確定是否可以愚弄審訊者。

標準解釋

圖靈測試的另一個常見版本並不努力查看是否可以愚弄計算機，而是要看看計算機是否可以模仿人類。在圖靈測試的標準解釋變化中，第一人稱是計算機，第二人稱是人類。

在這種變化中，第三人試圖發現前兩個人中的哪一個是人類，哪些是計算機。詢問者不是正在測試的主題。取而代之的是，是試圖欺騙人類的計算機（與模仿遊戲下的相反方向相反）。例如，可能會要求一系列個人理財問題來確定其回答是否合理地期望行為金融。

現代化的圖靈測試

自從創建圖靈測試以來，更現代的方法已經發展起來，試圖更好地檢測人類和機器。圖靈測試的這些變化正在不斷發展，以保持技術進步期間的相關性。

反向圖靈測試旨在讓人類的欺騙計算機認為它不是在審問人類。
圖靈總測試結合了感知能力以及被質疑的人操縱對象的能力。
馬庫斯測試讓測試對象查看媒體並回答有關內容的問題。
Lovelace測試2.0擁有測試對象創造了藝術，並檢查了他們的能力。
最低智能信號測試提出測試對象僅二進制問題（即是對/錯誤或是/否答案）。

圖靈測試的局限性

圖靈測試有許多批評者，上面的變化試圖減輕原始圖靈測試的某些局限性。儘管如此，重要的是要注意圖靈測試的缺點，並且其分析可能不足：

圖靈測試需要執行一個非常受控的環境。在整個測試期間，必須彼此掩蓋測試參與者，儘管當事方必須具有可靠的交流方式。
圖靈測試可能不適合作為智能的測試，因為不同的計算系統的結構不同。因此，計算機能夠執行的內容可能存在固有的自然限制。
圖靈測試正在發展；但是，技術進步的發展速度甚至更快。考慮摩爾定律這表明處理能力的快速增長，成本迅速下降。隨著計算機獲得更多功能，隨著計算機獲得更多類似人類的功能，歷史測試方法可能不再適合。
圖靈測試評估了智能，儘管它可能不是所有類型智能的適當量表。例如，計算機可能會根據審訊者像人類一樣處理響應的能力而成功地欺騙了審訊器。但是，這可能並不能真正表明情緒智力或意識。這可能只是意味著計算機的編碼具有高技能的程序員。