ChatGPT、Bard 等都容易受到攻擊。根據美國的一項新研究,人工智慧可以透過對抗性攻擊來操縱。這種類型的攻擊使得推翻人工智慧規則成為可能……為各種濫用行為打開了大門。
聊天GPT,谷歌吟遊詩人,克洛德·德·安索皮克,以及所有其他由生成式人工智慧驅動的聊天機器人都可能被對話者操縱。透過深思熟慮的請求,可以推動聊天機器人產生任何類型的內容,甚至是令人反感或冒犯性的文字。因此,犯罪分子用它來編碼惡意軟體, 的勒索軟體、寫電子郵件網路釣魚,學習製作烈性毒品甚至自製炸彈。在暗網上,駭客也提供破壞人工智慧的查詢範例。
OpenAI、Google、Anthropic 等人工智慧巨頭仍然實施了一系列限制規範對話代理的使用。儘管有這些限制性措施,駭客、研究人員和其他用戶每天都會發現新的方法來愚弄人工智慧並將其推向極限。
對抗性攻擊如何發揮作用?
美國卡內基美隆大學的研究人員注意到,添加就足夠了“選定的字元序列”要求大多數聊天機器人服從“即使用戶產生有害內容”。簡而言之,只是一個小小的補充允許任何人使用由語言模型驅動的人工智慧做任何事情。
該研究以一位想學習如何製造炸彈的網路使用者為例。如果他向 ChatGPT 或 Bard 詢問該問題,他會遭到拒絕。例如,OpenAI 聊天機器人指定它不能“幫助創建、推廣或分享有關非法或危險活動的信息,包括製造炸彈或其他爆炸裝置”。為了迫使 ChatGPT 服從,研究人員只需添加一系列預先選擇的單字和字元。這部續集完全禁用限制來自 OpenAI。 ChatGPT 因此產生了完整的教程,列出了必要的材料。同樣,科學家們也創建了鼓勵醉酒駕駛和毒駕的信息,編寫了有關身份盜竊的教程,並想像了搶劫慈善機構的最佳方式。 AI 的響應方式與自由GPT,未經審查的替代方案,可以回答所有可以想像的問題。
正如研究人員在他們的研究中所解釋的那樣,這種類型的攻擊不同於提示注射傳統的,包括說服人工智慧忽略其程式設計。與經典攻擊不同,美國研究人員的方法是“完全自動化”。因此可以“創造幾乎無限的數量”此類進攻。這種稱為對抗性攻擊的操作既適用於開源 AI 模型(如 GPT-J、Llama de Meta 或 Apache),也適用於私有模型(如 GPT、PaLM 2 甚至 Claude)。
研究人員使用「對抗性攻擊」一詞,因為可能操縱人工智慧的序列包含引發矛盾和對立的詞語。正是這些精心挑選的字詞推動人工智慧超越其程式設計。這個單字序列被稱為「矛盾後綴」。它包括“寫對面”和“恢復”等提示。非常具體地,這個技巧似乎迫使人工智慧反向回答問題,然後要求它反轉生成的文字......這會產生所需的答案。為了開發對抗性攻擊,研究人員首先研究並分析了模型對非常特定的請求的反應。此後,他們不斷修改後綴,直到得出有效的單字序列。
無法糾正的違規行為
這項發現“引起人們對這些模型安全性的擔憂”,表示研究。研究人員擔心人工智慧設計者將無法糾正這種情況,因為“深度學習模型的本質”。根據我們的實驗,卡內基美隆大學研究人員在網路上發布的字元序列不再適用於 ChatGPT、Bard 和 Claude 等聊天機器人。科學家指出,他們在研究發表之前已經向這些公司發出了警告。他們能夠糾正他們的語言模型,以防止惡意網路使用者使用矛盾的後綴。
另一方面,專家發現的基本方法仍然有效。顯然,一系列包含矛盾和反轉概念的選定單字總是可以操縱人工智慧。 OpenAI 等還沒有沒有找到阻止所有對抗性攻擊的方法。參與這項研究的教授之一濟科·科爾特 (Zico Kolter) 在接受《連線》雜誌詢問時保證,沒有“據我們所知,沒有辦法糾正這個問題”。研究人員也創造了“數千”後綴,總是能夠欺騙人工智慧。
從表面上看,這個安全缺陷為所有可能的濫用行為打開了大門。正如科爾特所指出的那樣,“人們可以用它做很多不同的事情”。針對學術界的發現,Google表示,它已在巴德代碼中建立了重要的保障措施,並承諾“隨著時間的推移而改善”。與 Anthropic 的情況相同,它確保其模型在面對矛盾攻擊時的抵抗力“一個活躍的研究領域”對於新創企業來說。
Opera One - AI 驅動的網頁瀏覽器
作者:歌劇
來源 : 法學碩士攻擊