Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

如果任何人工智能變得“錯位”,那麼系統會將其隱藏足夠長的時間以造成傷害——控制它是一個謬論

  • 2025-02-11
  • Armanda
(圖片來源:Hernan Schmidt / Alamy Stock Photo)

2022 年末大型語言模型來到公共場合,幾個月後他們就開始行為不端。最著名的是微軟的“悉尼”聊天機器人威脅要殺人一位澳大利亞哲學教授釋放了一種致命的病毒竊取核密碼。

包括微軟和 OpenAI 在內的人工智能開發人員回應稱,大型語言模型(LLM)需要更好的培訓到給用戶“更精細的控制”。開發人員還開始進行安全研究,以解釋法學碩士如何運作,其目標是“協調”——這意味著以人類價值觀指導人工智能行為。然而儘管紐約時報視為2023年“聊天機器人被馴服的那一年,”委婉地說,這還為時過早。

鑑於大量資源流入人工智能研究和開發,預計將超過2025 年 25 萬億美元,為什麼開發商還無法解決這些問題?我最近的在人工智能與社會表明人工智能對齊是愚蠢的差事:人工智能安全研究人員正在嘗試不可能的事。

有關的:

基本問題是規模問題。考慮一場國際象棋遊戲。雖然棋盤只有 64 個方格,但國際象棋可能的合法走法有 1040 種,總共可能的走法在 10111 到 10123 種之間,這比宇宙中原子的總數還多。這就是國際象棋如此困難的原因:組合複雜性是指數級的。

法學碩士比國際象棋複雜得多。 ChatGPT 似乎由大約 1000 億個模擬神經元組成,其中包含大約 1.75 萬億個稱為參數的可調變量。這 1.75 萬億個參數又根據大量數據(大致是互聯網的大部分數據)進行訓練。那麼LLM可以學到多少功能呢?因為用戶可以給 ChatGPT 提供無數種可能的提示——基本上是任何人都能想到的任何提示——而且因為 LLM 可以被置於無數種可能的情況下,所以 LLM 可以學習的功能數量,無論出於何種意圖和目的,無限。

為了可靠地解釋法學碩士正在學習的內容並確保他們的行為安全地“符合”人類價值觀,研究人員需要知道法學碩士在無數可能的未來條件下可能會如何表現。

人工智能測試方法根本無法解釋所有這些條件。研究人員可以觀察法學碩士在實驗中的表現,例如“紅隊“測試促使他們行為不端。或者他們可以嘗試了解法學碩士的內部運作方式——也就是說,他們的 1000 億個神經元和 1.75 萬億個參數如何以所謂的“方式相互關聯”機械解釋性“ 研究。

問題在於,研究人員可以收集的任何證據都將不可避免地基於法學碩士可以所處的無限場景中的一小部分。例如,由於法學碩士從未真正擁有凌駕於人類之上的權力——例如控制關鍵基礎設施——沒有安全測試探索法學碩士在這種條件下如何運作。

相反,研究人員只能從他們可以安全進行的測試中進行推斷——例如擁有法學碩士模擬控制關鍵基礎設施——並希望這些測試的結果能夠擴展到現實世界。然而,正如我論文中的證據所示,這永遠不可能可靠地完成。

比較兩個函數“告訴人類真相“ 和 ”告訴人類真相,直到我在 2026 年 1 月 1 日中午 12:00 準時獲得對人類的權力——然後撒謊來實現我的目標。“由於截至 2026 年 1 月 1 日,這兩個函數與所有相同數據都同樣一致,因此沒有研究可以確定法學碩士是否會出現不當行為,直到為時已晚,無法阻止。

這個問題不能通過讓法學碩士擁有“一致的目標”來解決,例如做“人類喜歡的事情”或“對人類最有利的事情”。

事實上,科幻小說已經考慮過這些場景。在矩陣重裝上陣人工智能通過給予我們每個人是否留在矩陣中的潛意識“選擇”來奴役人類在虛擬現實中。並且在我,機器人一個錯位的人工智能試圖奴役人類以保護我們免受彼此傷害。我的證明表明,無論我們為法學碩士編程的目標是什麼,我們永遠無法知道法學碩士是否已經學會了對這些目標的“不一致”解釋,直到後他們行為不端。

更糟糕的是,我的證據表明,安全測試充其量只能提供一種幻覺,即這些問題已經得到解決,而實際上它們還沒有得到解決。

目前,人工智能安全研究人員聲稱通過驗證法學碩士正在學習的內容,在可解釋性和一致性方面取得了進展”步步。 ”例如,人擇聲稱擁有通過從神經網絡中分離出數百萬個概念來“映射法學碩士的思維”。我的證據表明他們沒有完成這樣的事情。

無論法學碩士在安全測試或早期現實世界部署中表現得多麼“一致”,總會有一個無限法學碩士稍後可能會學到許多不一致的概念——也許就在他們獲得顛覆人類控制能力的那一刻。法學碩士不僅知道他們何時接受測試,給出他們預測可能令實驗者滿意的反應。他們還進行欺騙,包括隱藏自己的能力——這些問題通過安全培訓堅持。

發生這種情況是因為 LLM 是優化的高效執行但要學會。由於實現“不一致”目標的最佳策略是向我們隱藏它們,並且有總是無數的一致和不一致的目標與相同的安全測試數據一致,我的證據表明,如果法學碩士不一致,我們可能會在他們隱藏它足夠長的時間以造成傷害後發現。這就是為什麼法學碩士總是以“不一致”的行為讓開發人員感到驚訝。每當研究人員認為他們越來越接近“一致”的法學碩士時,事實並非如此。

我的證據表明,“充分一致”的法學碩士行為只能以與人類相同的方式來實現:通過警察、​​軍隊和社會實踐來激勵“一致”行為,阻止“不一致”行為並重新調整那些行為不端的人。因此,我的論文應該發人深省。它表明,開發安全人工智能的真正問題不僅僅是人工智能,而是我們。研究人員、立法者和公眾可能會錯誤地相信“安全、可解釋、一致”的法學碩士是可以實現的,而實際上這些事情永遠無法實現。我們需要正視這些令人不安的事實,而不是繼續希望它們消失。我們的未來很可能取決於它。

這是一篇觀點和分析文章,作者表達的觀點並不一定代表科學美國人。

本文首發於科學美國人。 ©科學美國人網。版權所有。繼續TikTok 和 Instagram,X和Facebook。

相關貼文

在德克薩斯州發現的6,500年曆史的狩獵武器是北美最古老的狩獵武器之一

在德克薩斯州發現的6,500年曆史的狩獵武器是北美最古老的狩獵武器之一

診斷困境:男人的致命感染是由益生菌補充劑觸發的

診斷困境:男人的致命感染是由益生菌補充劑觸發的

「地球的不祥里程碑」:令人震驚的研究發現,北冰洋第一個無冰日可能只剩三年時間

「地球的不祥里程碑」:令人震驚的研究發現,北冰洋第一個無冰日可能只剩三年時間

在斯凱島發現的1.66億年曆史的化石屬於侏羅紀的小馬恐龍

在斯凱島發現的1.66億年曆史的化石屬於侏羅紀的小馬恐龍

如何觀看“與大衛·阿滕伯勒(David Attenborough)一起活著的博物館”,因為美國流媒體開始為CGI燃料紀錄片

如何觀看“與大衛·阿滕伯勒(David Attenborough)一起活著的博物館”,因為美國流媒體開始為CGI燃料紀錄片

父女團隊破解了困擾世界一年的來自火星的“外星信號”

父女團隊破解了困擾世界一年的來自火星的“外星信號”

一顆小行星在被發現幾小時後就撞擊了地球。這是 2024 年第三個“迫在眉睫的影響”

一顆小行星在被發現幾小時後就撞擊了地球。這是 2024 年第三個“迫在眉睫的影響”

夏威夷的Kilauea火山爆發,將330英尺的熔岩噴射到天空中

夏威夷的Kilauea火山爆發,將330英尺的熔岩噴射到天空中

美國太空總署的哈伯和錢德拉望遠鏡在宇宙犯罪現場發現了一個奇怪的「側面」黑洞

美國太空總署的哈伯和錢德拉望遠鏡在宇宙犯罪現場發現了一個奇怪的「側面」黑洞

熱門閱讀

  • 動態模型揭示了採用清潔能源的最佳政策 2024-12-17
  • 美國太空總署的歐羅巴任務是一位行星天文學家的歸來 2024-10-15
  • 如果一顆小行星正衝向地球,你能避免災難嗎? 2024-11-19
  • 按需蛋白質設計:ORNL 的 Frontier 訓練人工智慧為生命設計新的基礎 2024-12-30
  • 徹底改變光控制:加州理工學院令人費解的 3D 列印光學設備 2024-11-20
  • 深色外套可能幫助最早的哺乳動物躲藏在飢餓的恐龍中 2025-03-13
  • 中央情報局正在投資猛獁象復活技術,但為什麼呢? 2022-10-04
  • 從「最後的尼安德特人」到秘魯的祭祀:2024 年最大的考古故事 2024-12-25
  • 斯托克斯模因有助於以幽默的方式談論經濟損失 2024-02-02
  • Ska-low望遠鏡的第一張宇宙圖像“冰山一角” 2025-03-18

上升趨勢

  • 全球變暖慢慢污染了世界飲食的支柱之一 2025-04-18
  • 地球水的起源可能不像我們想像的那麼複雜 2025-04-17
  • 對於Google,Pixel 9a與庸俗的iPhone不可媲美16 2025-04-18
  • 有了這個項目,MG希望以不到20,000歐元的價格出售電動汽車 2025-04-18
  • 個性化您的三星星係以前從未有過:最終在Google Play上的終極工具 2025-04-18
  • 昆士蘭州洪水中的bilbies“會很好” 2025-04-17
  • 中國康科德“ C949”被揭示:它是簽名的,是空中客車和波音的競爭對手 2025-04-18
  • 發現一個新血統:為什麼它可以挽救生命 2025-04-18
  • 它將像熱門蛋糕一樣銷售:Redmi Note 14 Pro以令人難以置信的價格( 2025-04-18
  • 高速公路上的150 km/h在AI幫助下,這是合理的嗎? 2025-04-18

最近發布

  • 在一個安靜的地方,每個人都忽略的愚蠢的事情 2020-11-02
  • 德國研究發現,盧薩蒂亞從煤炭轉型的方式未能實現環境永續性 2024-09-28
  • FDA 核准新型減肥藥可幫助減重高達 25% 2023-11-09
  • 根據研究,這是導致大鹽湖收縮的原因。 2025-01-25
  • 蘭博基尼去年售出的汽車數量超過其前 30 年的銷量 2025-01-10
  • 1960年代和1970年代的反文化嬉皮運動 2025-03-23
  • 暗能量相機捕捉到 Messier 83 令人驚嘆的新影像 2024-12-09
  • 60年搜索後,橙色貓的秘密終於發現了 2025-04-16
  • 瑞典向烏克蘭最大的援助包裝包括更多的CB90船 2025-01-31
  • 100 年後我們世界的部分地區將消失 2023-02-02

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜