作者:Ola Ahmad,首席人工智慧科學家泰雷茲
人工智慧/機器學習 (AI/ML) 和大型語言模型 (LLM) 等新興技術創新應用的興起也為新的風險和漏洞打開了大門。其中一個漏洞稱為“即時注入”,它正在影響 AI/ML 應用程式和法學碩士,旨在覆蓋模型的現有指令並引發意外回應。
一些簡單的背景知識:這裡的「提示」是一組指令,這些指令要么由開發人員內置,要么由用戶插入,告訴法學碩士及其集成應用程序要做什麼。就其本身而言,這並不是威脅,但不良行為者可以操縱惡意內容並將其註入提示中以利用模型的作業系統。例如,駭客可以欺騙聊天機器人或虛擬助理等法學碩士應用程序,使其忽略系統護欄或轉發私人公司文件。
對組織的即時注入攻擊通常不會針對使用者身分。然而,如果攻擊者旨在以可能暴露個人或機密資訊的方式操縱模型,其後果可能會間接損害用戶的身份,從而使從實習生到執行長的每個人都面臨風險。
法學碩士和人工智慧/機器學習應用程式越來越多地被駭客利用來偽造身份並欺騙個人或組織。透過即時注入,駭客可以製作特定的提示來誘騙模型進行未經授權的存取或洩露個人數據,提取敏感的個人信息,並為網路釣魚或假冒生成誤導性或有害的輸出。一旦掌握了個人數據,攻擊者就可以進行身份盜竊或欺詐,進一步損害用戶以及依賴他們的其他人。
打擊即時注入攻擊
組織可以透過多種方式保護其人工智慧模型並保護其用戶的身份。除了使用安全工具和框架之外,一般組織還應遵循三個最佳實踐:驗證、可解釋性以及用於檢測和減輕可疑內容的人工智慧模型和技術。
人機互動驗證
「人在環」概念涉及對自動化流程的人工監督和乾預,以減少錯誤、監控可疑活動、確保準確性並維護道德標準。人工智慧仍然容易出現偏見和錯誤,尚未達到人類認知能力的水平,而整合人性化可以幫助組織提供細緻入微的解決方案和決策,而單靠人工智慧尚無法完全實現。
及時的工程師可以使用人機互動的方法來審查人工智慧的回應並確保它們滿足人類的期望。人類可以提供回饋和品質控制,確定人工智慧系統是否相關並適應新趨勢和資訊。編輯檔案、更改設定或呼叫 API 等任務通常需要人工批准才能保持控制並提高 LLM 的整體安全性。
然而,使用涉及人工監督的法學碩士會使它們不那麼方便並且更加勞動密集。此外,人類很容易出錯,涉及人類監督並不能保證完全的安全。有時,惡意提示和駭客攻擊足夠複雜,可以逃脫人類的監控。例如,攻擊者可以使用社會工程來利用用戶洩露個人資訊,例如他們的社會安全或信用卡號碼。他們還可以「提示」法學碩士或人工智慧/機器學習應用程式釋放用於識別和身份驗證的敏感資料——在我們意識到之前,目標用戶就成為身份盜竊的受害者。
儘管如此,人類監督仍然可以幫助識別和標記可疑活動,減少不良行為者成功注入惡意提示並損害個人身份和安全的機會。
可解釋性
可解釋性是指人工智慧模型及其輸出可以以對人類「有意義」的方式進行解釋,從而使複雜的人工智慧決策透明且值得信賴。使用可解釋性來對抗即時注入攻擊可以增強組織對模型如何處理輸入和生成輸出的理解。可解釋性可能涉及多種防禦策略,分為四種方法:
- 識別:企業可以部署工具來識別模型如何達到某些回應,偵測輸入輸出等級或模型內的異常或異常模式,並指示提示注入的潛在嘗試。使用者應該能夠對模型輸出提供回饋,如果發現異常響應則進行標記。
- 教育:這可以包括為使用者提供與法學碩士互動的明確指南,以及培訓各個公司團隊以了解適當的輸入和輸出,以便他們更了解並能夠更快地回應潛在的攻擊。
- 分析:仔細檢查導致模型意外輸出的輸入將確定所涉及的因果關係。定期審核模型還可以幫助記錄其回應並建立資料集進行分析。
- 細化:分析見解可用於調整訓練資料和策略,以迭代地細化法學碩士。該模型還可以結合可解釋的人工智慧方法,以更好地解釋模型決策並提高針對不良提示的穩健性。
可解釋性使即時注入攻擊的工作方式變得透明和清晰,以便企業可以加強其攻擊面。除了增強安全性之外,它還增強了人們對模型可靠性的信任,以確保個人資訊的安全。
用於快速注入檢測和緩解的人工智慧技術
除了可解釋的人工智慧之外,公司還可以採用多種技術來增強系統的整體安全性。首先,他們應該先確定關鍵目標以及哪種人工智慧模型可以實現這些目標,然後再進行採用。
在保護使用者身分免受惡意提示注入時,組織可以部署自然語言處理 (NLP)、異常檢測、電腦視覺和多模式功能等技術來即時分析和過濾使用者輸入,改進身份驗證,並根據上下文和語義標記潛在的惡意內容。因此,如果有人使用欺詐性視覺 ID,電腦視覺可能能夠掃描、偵測並發出注射嘗試訊號。此外,多模式模型可以識別在不同模式(例如文字提示、圖像和/或音訊)中不一致的異常模式,從而表明潛在的注入攻擊。
情境感知、行為分析和穩健測試等人工智慧技術可以增強可解釋性策略,以解決可疑或有害的提示。更大、更複雜的組織可以部署模型和多模式方法的集合,以評估輸入和輸出,以實現更強大的即時評估和即時注入檢測。
雖然這些並不能保證立即註入攻擊將被消除,但透過整合這些策略,世界各地的企業都可以顯著增強其係統抵禦惡意注入的能力。透過增強模型的穩健性和安全性,企業不僅可以保護模型的完整性,還可以保護使用者資料和身分。
關於作者
Ola Ahmad 博士是該公司的首席人工智慧科學家泰雷茲研究與技術加拿大的設施,以及拉瓦爾大學的兼任教授。她的專業知識涵蓋分析建模、機器學習/深度學習、值得信賴的人工智慧、訊號處理和電腦視覺。
艾哈邁德博士獲得了博士學位。 2013 年,她在法國聖艾蒂安國立高等礦業學院獲得計算建模和幾何博士學位,她的研究重點是隨機場的幾何和隨機模式的機率建模。獲得博士學位後,她在斯特拉斯堡大學(法國)、舍布魯克大學(加拿大)和蒙特利爾理工學院(加拿大)等多個學術機構擔任博士後職位,在那裡她進一步專門研究應用於電腦視覺的深度學習和混合人工智慧,感測和機器人技術。
2018 年,艾哈邁德博士加入了泰雷茲在加拿大的研究和技術團隊,目前領導著可信賴人工智慧的研究路線圖,帶頭開發可解釋的人工智慧、強大的機器學習以及用於自主和安全的節儉/嵌入式深度學習解決方案。
文章主題
|||||