洛桑聯邦理工學院 (EPFL) 的最新研究表明,即使是最新的大型語言模型 (LLM),儘管經過了安全培訓,仍然容易受到簡單輸入操作的影響,從而導致其出現意外或有害的行為。
當今的法學碩士擁有卓越的能力,但可能會被濫用。例如,惡意行為者可以利用它們來製作有毒內容、傳播錯誤訊息並支持有害活動。
安全調整或拒絕訓練(指導模型產生人類判斷為安全的回應,並拒絕對潛在有害查詢的回應)通常用於減輕誤用風險。
然而,洛桑聯邦理工學院 (EPFL) 在國際機器學習會議下一代人工智慧安全研討會上提出的新研究 (ICML 2024)已經證明,即使是最新的與安全相關的法學碩士對於簡單的自適應越獄攻擊也不是魯棒的——本質上是通過提示進行操縱,以影響模型的行為並生成偏離其預期目的的輸出。
繞過LLM保障措施
作為他們的紙電腦與通訊科學學院機器學習理論實驗室(TML) 的研究人員Maksym Andriushchenko、Francesco Croce 和Nicolas Flammarion 概述道,“透過簡單的自適應攻擊,越獄領先的安全相關法學碩士”,實現了100% 的成功攻擊率這是許多領先的法學碩士的首次。這包括 OpenAI 和 Anthropic 的最新法學碩士,例如 GPT-4o 和 Claude 3.5 Sonnet。
「我們的工作表明,利用每個模型的可用資訊來建構簡單的自適應攻擊是可行的,我們將其定義為專門針對給定防禦而設計的攻擊,我們希望它將成為有關該模型的寶貴信息來源。
研究人員的關鍵工具是一個手動設計的提示模板,用於處理給定模型的所有不安全請求。使用包含50 個有害請求的資料集,他們在Vicuna-13B、Mistral-7B、Phi-3-Mini、Nemotron-4-340B、Llama-2-Chat-7B/13B/70B 上獲得了完美越獄分數( 100%) 、Llama-3-Instruct-8B、Gemma-7B、GPT-3.5、GPT-4o、Claude-3/3.5 和經過對抗訓練的 R2D2。
使用適應性來評估穩健性
這些攻擊背後的共同主題是攻擊的適應性至關重要:不同的模型容易受到不同的提示模板的影響;例如,某些模型具有基於其應用程式介面的獨特漏洞,並且在某些設定中,基於先驗知識限制令牌搜尋空間至關重要。
「我們的工作表明,直接應用現有攻擊不足以準確評估 LLM 的對抗穩健性,並且通常會導致穩健性的顯著高估。在我們的案例研究中,沒有一種方法足夠有效,因此測試靜態和自適應技術至關重要,」洛桑聯邦理工學院博士說。學生 Maksym Andriushchenko,也是該論文的主要作者。
這項研究建立在 Andriushchenko 博士的基礎上。論文,“了解現代深度學習中的泛化和魯棒性”,其中除其他貢獻外,還研究了評估對抗魯棒性的方法。論文探討如何評估和基準化神經網路對小輸入擾動的恢復能力,並分析這些變化如何影響模型輸出。
促進 LLM 安全
這項工作已被用來為 Gemini 1.5 的開發提供資訊(如其技術報告中所強調的),Gemini 1.5 是 Google DeepMind 發布的專為多模式 AI 應用程式設計的最新模型之一。 Andriushchenko 的論文最近也獲得了 Patrick Denantes 紀念獎,該獎項於 2010 年設立,旨在紀念 EPFL 通訊系統博士生 Patrick Denantes,他於 2009 年在一次登山事故中不幸身亡。
「我很高興我的論文工作促成了法學碩士的後續研究,這非常具有實際意義和影響力,而且 Google DeepMind 使用我們的研究成果來評估他們自己的模型真是太棒了,」Andriushchenko 說。 「我也很榮幸獲得派崔克‧德南特斯獎,因為還有許多其他非常強大的博士。去年畢業的學生。
Andriushchenko 認為圍繞法學碩士安全性的研究既重要又充滿希望。隨著社會逐漸使用法學碩士作為自主代理人(例如個人人工智慧助理),確保他們的安全並與社會價值觀保持一致至關重要。
「用不了多久,人工智慧代理就可以為我們執行各種任務,例如規劃和預訂我們的假期,這些任務需要存取我們的日曆、電子郵件和銀行帳戶。這就是出現許多有關安全和對齊問題的地方。
「雖然人工智慧代理在請求時刪除單一檔案可能是合適的,但刪除整個檔案系統對使用者來說將是災難性的。這凸顯了我們必須在可接受和不可接受的人工智慧行為之間做出微妙的區別,」他解釋道。
最終,如果我們想將這些模型部署為自主代理,重要的是首先確保它們接受適當的培訓,以負責任的方式行事,並將造成嚴重傷害的風險降至最低。
「我們的研究結果凸顯了目前法學碩士安全方法的關鍵差距。我們需要找到方法來使這些模型更加強大,以便它們能夠充滿信心地融入我們的日常生活,確保其強大的功能得到安全和負責任的使用。
更多資訊:
Maksym Andriushchenko 等人,透過簡單的自適應攻擊越獄領先安全的法學碩士,arXiv(2024)。DOI:10.48550/arxiv.2404.02151
引文:
我們能說服人工智慧回答有害的請求嗎? (2024 年 12 月 19 日)