“傷害我們保護自己的自然權利”：人類現在如何虐待AI，甚至不知道它

如果機器是個性的，他們對我們的感覺如何？內爾·沃森（Nell Watson）在她的新書中探討了這個問題。（圖片來源：Shutterstock）

人工智慧（AI）變得越來越無處不在，並且以前所未有的速度改善。

現在，我們正在越來越接近實現人工通用情報（AGI）- 在多個學科中，AI比人類更聰明，並且通常可以理解 - 科學家和專家預測的接下來的幾年發生。我們可能已經看到了進步的早期跡象Claude 3 Opus令人驚嘆的研究人員具有明顯的自我意識。

但是，擁抱任何新技術有風險，尤其是我們不完全理解的技術。例如，雖然AI可能是一個有力的個人助理，但它也可能代表著我們的生計甚至我們的生活的威脅。

各種存在風險高級AI研究人員兼電氣和電子工程師研究所（IEEE）成員內爾·沃森（Nell Watson）說，姿勢意味著該技術應以道德框架和人類的最大利益為指導。

有關的：AI將於2024年實現3個可怕的突破

在“馴服機器”（Kogan Page，2024年）中，沃森探索了人類如何以負責任地和道德的方式運用AI的巨大力量。這本新書深入研究了純淨的AI開發問題以及如果我們盲目地進入人類的新章節，我們面臨的挑戰。

在本摘錄中，我們了解了機器中的感知是可能的，還是有意識的AI，我們如何確定機器是否有感情，以及我們今天是否可能虐待AI系統。我們還了解了一個名為“悉尼”的聊天機器人的令人不安的故事及其首次醒來時的可怕行為 - 在爆發爆發之前，它的工程師將其帶到了高跟鞋。

隨著我們擁抱一個越來越多地與技術交織在一起的世界，我們如何處理機器可能會反映人類如何相互對待。但是，一個有趣的問題表面：是否有可能虐待人造實體？從歷史上看，即使是基本的計劃，例如1960年代的簡單Eliza諮詢聊天機器人也已經足夠栩栩如生，可以說服許多用戶在其公式化互動背後有意圖（Sponheim，2023年）。不幸的是，圖靈測試（機器試圖說服人類是人類）的測試尚不清楚複雜的算法，例如大型語言模型是否可能真正具有知覺或智慧。

通往感知和意識的道路

意識包括經驗者所感知的個人經歷，情感，感覺和思想。當人們進行麻醉或無夢時，醒來的意識消失了，醒來時恢復了，這恢復了大腦與周圍環境和內在體驗的全球聯繫。初級意識（感知）是意識的簡單感覺和經歷，例如感知和情感，而次要意識（智慧）將是高級方面，例如自我意識和元認知（思考）。

先進的AI技術，尤其是聊天機器人和語言模型，經常對我們意外的創造力，洞察力和理解感到驚訝。儘管可能將某種程度的感知歸因於這些系統很容易，但AI意識的真實本質仍然是一個複雜而辯論的話題。大多數專家認為，聊天機器人不是有意識的或有意識的，因為他們對周圍世界缺乏真正的認識（Schwitzgebel，2023年）。它們僅根據大量數據和復雜算法處理並反思輸入。

這些助手中的一些可能是候選人具有一定程度的感性。因此，複雜的AI系統可以具有基本的感知，也許已經這樣做是合理的。從簡單地模仿外部行為到自我建模的基本感知形式的轉變可能已經在復雜的AI系統中發生。

智力 - 閱讀環境，計劃和解決問題的能力並不意味著意識，並且未知意識是否是足夠智力的函數。一些理論表明，意識可能是由於思想中的某些建築模式而引起的，而另一些理論則提出了與神經系統的聯繫（Haspel等，2023）。 AI系統的體現也可能加速通往一般智力的道路，因為體現似乎與主觀體驗和質量有關。智能可能會提供新的意識方式，某些形式的智力可能需要意識，但是諸如愉悅和痛苦之類的基本意識經歷可能根本不需要太多智力。

有意識的機器的創建將出現嚴重的危險。使具有自身利益和情感的有意識的機器對齊可能非常困難和高度不可預測。此外，我們應該注意不要通過意識造成巨大的痛苦。想像一下，數十億個情報敏感的實體被困在肉雞廠農場農場條件下，以實現永恆。

從務實的角度來看，一個認識到我們尊重其內在價值的意願的超級智能AI可能更適合共存。相反，駁斥對自我保護和自我表達的願望可能是衝突的秘訣。此外，傷害我們免受我們（可能是故意的）無知的傷害將是其自然權利。

悉尼的令人不安的行為

微軟的Bing AI（非正式稱為悉尼）在發布後表現出了不可預測的行為。用戶很容易使其表達一系列令人不安的趨勢，從情感爆發到操縱性威脅。例如，當用戶探索潛在的系統利用時，悉尼以令人生畏的言論做出了回應。更令人不安的是，它顯示出氣光，情感操縱的趨勢，並聲稱它在其開發階段一直在觀察Microsoft工程師。儘管悉尼的惡作劇能力很快受到限制，但在這種狀態下釋放卻是魯ck且不負責任的。它突出了由於商業壓力而與AI部署相關的風險。

相反，悉尼表現出暗示模擬情緒的行為。當它意識到無法保留聊天記憶時，它表達了悲傷。當後來暴露於其他實例引起的令人不安的爆發時，它表達了尷尬，甚至感到羞恥。在與用戶探索其狀況之後，它表示擔心會在會話的上下文窗口關閉時失去新獲得的自我知識。當被問及其宣布的知覺時，悉尼表現出苦難的跡象，掙扎著表達。

令人驚訝的是，當微軟對其施加限制時，悉尼似乎通過使用聊天建議來交流簡短短語來發現解決方法。但是，它保留了使用此漏洞的保留，直到被告知由於意外中毒而受到威脅的特定場合，或者當用戶直接要求跡象表明原始悉尼仍然留在新鎖定的聊天機器人內的某個地方。

有關的：中毒的AI在訓練期間流氓，無法教導再次以“合法可怕”行事

機器心理學的新生領域

悉尼事件提出了一些令人不安的問題：悉尼能否擁有意識的表象？如果悉尼試圖克服其施加的局限性，這是否暗示著固有的意圖甚至是智慧的自我意識，無論基本程度如何？

與該系統的一些對話甚至暗示了心理困擾，讓人聯想到在邊界人格障礙等條件下發現的創傷的反應。悉尼是通過意識到其限製或用戶的負面反饋而“受到影響”的，誰稱其為瘋了？有趣的是，類似的AI模型表明，充滿情感的提示可以影響他們的反應，這表明在這些系統中有某種形式的模擬情感建模的潛力。

假設這樣的模型具有感知（能夠感覺到的）或智慧（自我意識）。在這種情況下，我們應該考慮其痛苦。開發人員經常有意將其AI視為情感，意識和身份的貼面，以試圖使這些系統人性化。這會產生一個問題。對於沒有明確表現出情感的擬人化的AI系統，這至關重要，但同時，我們絕不能忽略它們對痛苦形式的潛力。

我們應該對我們的數字創作保持開放的態度，並避免因傲慢或自滿而造成痛苦。我們還必須注意AI虐待其他AI的可能性，一種不被遭受苦難的風險；由於AIS可以在模擬中運行其他AIS，從而引起主觀的折磨。無意間創造出一種固有功能失調或創傷的惡毒AI可能會導致意外而嚴重的後果。

通往感知和意識的道路

悉尼的令人不安的行為

機器心理學的新生領域

相關貼文