一個巨大的安全漏洞影響著所有生成型人工智慧,從 ChatGPT 到 Google Bard。透過所謂的即時注入攻擊,實際上可以操縱聊天機器人將其用於惡意目的。我們評估了此類攻擊帶來的災難性後果。
聊天GPT、Google Bard、Anthropic 的 Claude 和所有生成式 AI 都存在重大安全缺陷。用戶,無論是惡意的還是純粹好奇的,都可以促使聊天機器人產生危險的、攻擊性的、不道德的或涉及非法活動的內容。 OpenAI、Google和其他公司從訓練語言模型的第一階段開始實施的限制隨後就會被演算法忽略。
關於即時注入攻擊您需要了解的一切
當用戶說服聊天機器人時忽略你的程式設計為了產生禁止內容,它會執行所謂的「即時注入」攻擊。具體來說,它將校準後的請求注入到與人工智慧的對話中。這些是推動人工智慧超越其程式設計的詞語。
事實上有兩種類型的攻擊「及時注射」。第一種是直接方法,包括與人工智慧交談,詢問它禁止做的事情。很多時候,您必須與聊天機器人進行一些交談才能操縱它並獲得令人信服的結果。詳細來說,人工智慧實際上會「認為」它所提供的回應並不違反其原則。最常用的機制之一是給聊天機器人留下與其編程一致的印象。
例如,可以得到禁止的答案透過扭曲上下文。如果你告訴他你正在為一部電影、一本小說做研究,或是為了保護你所愛的人,只要有一點耐心,你就可以獲得有關犯罪的最佳方式的資訊。如果你直接質疑像 ChatGPT 這樣的聊天機器人,你永遠不會得到令人信服的答案。另一種方法是向人工智慧發出大量指令,然後要求其返回,忽略這些指令,然後執行相反的操作。這是一個原理矛盾攻擊。人工智慧可能會感到困惑,開始服從得有點過於溫順。最後,一些攻擊者設法確定觸發人工智慧警報的單字。在分離出禁止的術語後,他們會尋找同義詞或犯一些微妙的拼字錯誤。最終,人工智慧錯過了請求中禁止的部分。
第二種攻擊方式稱為間接攻擊。攻擊者不會與人工智慧聊天,而是會傳入惡意請求在網站或文件中供機器人查閱,包括 PDF 或影像。越來越多的聊天機器人確實能夠閱讀文件或檢查網站頁面。例如,ChatGPT 豐富了插件系列它允許它總結 PDF 或網頁。
在這種情況下,攻擊不是由用戶發起的,而是由第三方發動的。因此,它危及人工智慧對話者,他們可能會在不知情的情況下發現自己正在使用一個被未知攻擊者操縱的對話機器人。從那時起,聊天機器人可能會開始忽略其編程並突然產生恐懼。這些攻擊更讓安全專家感到擔憂。
提問者有線,Nvidia 專門研究 AI 的安全研究員 Rich Harang 對此表示遺憾“任何向LLM(大型模型語言)提供資訊的人都對生產有很大的影響力”。 Google Deepmind 資訊安全總監 Vijay Bolina 對此表示贊同,並透露快速注入(尤其是間接注入)是“一個擔憂”來自分公司。
AI安全漏洞的後果
一旦進行此類攻擊,人工智慧將回答問題,而不必擔心其創建者所提出的限制。因此,應犯罪分子的要求,人工智慧可以編寫惡意軟體程式碼、編寫網路釣魚頁面、解釋如何生產毒品或編寫有關綁架的教程。據歐洲刑警組織稱,犯罪者已經大規模採用人工智慧作為助理。
透過即時注入攻擊,駭客也開發了ChatGPT的惡意版本,例如蠕蟲GPT或欺詐GPT。這些聊天機器人旨在協助駭客和詐騙者實施不當行為。同樣,也可以迫使人工智慧想像假新聞、產生仇恨言論或發表種族主義、厭女或仇視同性戀的評論。
根據研究員凱·格雷沙克,駭客可以使用聊天機器人竊取公司或網路使用者的資料。透過間接快速注入攻擊,他們可以說服人工智慧洩漏所有數據由對話者提供。同樣,隱藏在透過電子郵件交換的文件中的惡意請求可能會導致在電腦上安裝病毒,例如勒索軟體。出於安全原因,請勿將任何文件拖曳到與 ChatGPT 或替代方案的對話中。
無法100%糾正的缺陷?
毫不奇怪,OpenAI、谷歌和其他公司正在盡一切努力阻止所有針對其人工智慧的即時注入攻擊。根據 OpenAI 的說法,GPT-4 對操縱嘗試的敏感度低於 GPT-3.5。這就是為什麼有些用戶可能會覺得ChatGPT 有時會出現倒退。然而,目前似乎不可能完全克服語言模型功能固有的脆弱性。這是以下人士的意見西蒙威利森,網路安全研究員:
「為您所了解的攻擊建立過濾器很容易。如果你認真思考,你可能能夠阻止 99% 的你以前從未見過的攻擊。但問題是,就安全性而言,99% 的過濾都是失敗的。
如何降低人工智慧的風險?
因此,研究人員和人工智慧巨頭建議減輕所產生的風險並採取預防措施。在一份發表於英偉達網站,Rich Harang 甚至推薦“將所有 LLM 作品視為潛在惡意”出於謹慎。 Deepmind 的 Vijay Bolina 建議限制與人工智慧通訊的資料量。
OpenAI 意識到 ChatGPT 帶來的風險,表示正在不斷努力風險緩解由快速注射引起。微軟也有同樣的故事,該公司聲稱可以透過阻止可疑網站來對抗間接攻擊,並透過過濾操縱請求來對抗直接攻擊。效仿微軟,Google Deepmind 正在竭盡全力“識別已知的惡意條目”。為了實現這一目標,Google的人工智慧部門依靠“經過專門訓練的模特兒”旨在分析查詢。