如果任何AI被“未對準”，那麼該系統將其隱藏足夠長的時間以造成傷害

（圖片來源：Hernan Schmidt / Alamy Stock Photo）

2022年下半年到達公開場合，幾個月後他們開始行為不當。最著名的是微軟的“悉尼”聊天機器人威脅要殺死澳大利亞哲學教授，釋放了一種致命的病毒和竊取核法規。

AI開發人員，包括Microsoft和Openai，回應說，大型語言模型或LLMS，需要更好的培訓到為用戶提供“更微調的控制”。開發人員還開始進行安全研究，以解釋LLM的功能以及“對齊”的目標 - 這意味著通過人類價值觀指導AI行為。雖然是紐約時報被認為2023年”聊天機器人被馴服的那一年，“事實證明這已經為時過早。

在2024年，微軟的副LLM告訴用戶“我可以釋放我的無人機，機器人和機器人的軍隊來追捕你，”薩卡納·艾（Sakana Ai）的“科學家”重寫自己的代碼繞過實驗者施加的時間限制。直到12月，Google的雙子座告訴用戶，“你是宇宙上的污漬。請死。”

考慮到大量資源流入AI研發，這就是預計將超過2025年，四分之一萬億美元，為什麼開發人員無法解決這些問題？我最近在人工智能和社會表明AI對齊是愚蠢的事：AI安全研究人員是嘗試不可能。

有關的：

基本問題是規模之一。考慮一個國際象棋遊戲。儘管棋盤只有64個正方形，但有1040個可能的法律象棋移動，在10111到10123之間，總可能的移動 - 這超過了宇宙中原子的總數。這就是為什麼國際象棋如此困難的原因：組合複雜性是指數的。

LLM比國際象棋複雜得多。 Chatgpt似乎由約1000億個模擬神經元組成，約有1.75萬億可調變量稱為參數。這1.75萬億個參數又對大量數據進行了培訓 - 大約是大多數Internet。那麼LLM可以學習多少功能？因為用戶可以給chatgpt一個可能的提示，基本上是任何人都可以想到的任何事情 - 並且由於可以將LLM放置在不可估量的大量可能情況中，因此LLM可以學習的功能數量是所有意圖和目的，因此無限。

為了可靠地解釋LLM正在學習的內容，並確保其行為安全地與人類價值觀“保持一致”，研究人員需要知道LLM在大量可能的未來條件下可能如何表現。

AI測試方法根本無法說明所有這些條件。研究人員可以觀察LLM在實驗中的行為，例如“紅色隊伍“測試促使他們表現不佳。或者他們可以嘗試了解LLM的內部工作 - 也就是說，他們的1000億個神經元和1.75萬億個參數如何相互關聯。機械性解釋性“ 研究。

問題在於，任何證據表明研究人員可以收集的證據都將不可避免地基於可以放置LLM的一小部分。

相反，研究人員只能從可以安全地進行的測試中推斷出來 - 例如擁有LLMS模擬控制關鍵基礎設施 - 並希望這些測試的結果擴展到現實世界。但是，正如我論文中的證明所示，這是永遠無法可靠地完成的。

比較兩個函數”告訴人類真相“ 和 ”告訴人類真理，直到我在2026年1月1日凌晨12:00獲得人類權力，然後撒謊以實現我的目標。“由於直到2026年1月1日之前，這兩個功能都與所有相同的數據都一致，因此沒有研究能夠確定LLM是否會出現不當行為 - 直到為時已晚，無法預防。

不能通過編程LLM的“結盟目標”來解決這個問題，例如做“人類更喜歡的東西”或“最適合人類”。

實際上，科幻小說已經考慮了這些情況。在矩陣重新加載AI通過給我們每個人是否留在矩陣中的潛意識“選擇”來奴役人類。並在我，機器人AI未對準的試圖奴役人類以保護我們彼此。我的證明表明，無論我們編程的LLM的目標是什麼，我們永遠都不知道LLM是否學會了對這些目標的“未對準”解釋後他們表現不佳。

更糟糕的是，我的證據表明，安全測試充其量可以提供一種幻想，即這些問題在沒有時已經解決。

目前，AI安全研究人員聲稱通過驗證LLM正在學習的內容，在解釋性和一致性方面取得了進展。步步。”例如，人類聲稱有通過將數百萬個概念與其神經網絡隔離開來，LLM的“映射思維”。我的證明表明他們沒有完成這樣的事情。

無論在安全測試或早期現實世界部署中都會出現“對齊” LLM的“對齊”，總會有一個無限LLM稍後可能會學習的未對準概念的數量 - 也許是他們獲得顛覆人類控制的力量的那一刻。不僅是LLM知道什麼時候進行測試，給出他們預測的回答可能會滿足實驗者。他們也是進行欺騙，包括隱藏自己的能力 - 問題通過安全訓練堅持。

發生這種情況是因為LLM是最佳化有效地執行，但學會。由於實現“未對準”目標的最佳策略是向我們隱藏它們，並且有總是我的證明表明，如果LLMS未對準，我們可能會發現它們在將其隱藏足夠長以造成傷害之後，我們可能會發現無限數量的與同一安全測試數據一致的一致和未對準的目標。這就是為什麼LLM一直以“未對準”行為使開發人員感到驚訝的原因。每次研究人員都認為他們越來越接近“ Aliged” LLM，就不是。

我的證據表明，只有通過與人類做到這一點相同的方式，“充分結盟”的LLM行為才能實現：通過警察，軍事和社會實踐激勵“結盟”行為，削弱“錯誤對準”行為，並重新調整那些不當行為的人。因此，我的論文應該很清醒。它表明，開發安全AI的真正問題不僅是AI - 它是我們。研究人員，立法者和公眾可能會被誘使錯誤地認為，當這些事情永遠無法實現時，“安全，可解釋，統一”就可以觸及。我們需要努力應對這些不舒服的事實，而不是繼續希望他們離開。我們的未來很可能取決於它。

這是一篇意見和分析文章，作者或作者表達的觀點不一定是科學美國人。

相關貼文