作者:Ola Ahmad,首席人工智能科學家泰雷茲
人工智能/機器學習 (AI/ML) 和大型語言模型 (LLM) 等新興技術創新應用的興起也為新的風險和漏洞打開了大門。其中一個漏洞稱為“即時注入”,它正在影響 AI/ML 應用程序和法學碩士,旨在覆蓋模型的現有指令並引發意外響應。
一些簡單的背景知識:這裡的“提示”是一組指令,這些指令要么由開發人員內置,要么由用戶插入,告訴法學碩士及其集成應用程序要做什麼。就其本身而言,這並不是威脅,但不良行為者可以操縱惡意內容並將其註入提示中以利用模型的操作系統。例如,黑客可以欺騙聊天機器人或虛擬助理等法學碩士應用程序,使其忽略系統護欄或轉發私人公司文檔。
對組織的即時注入攻擊通常不會針對用戶身份。然而,如果攻擊者旨在以可能暴露個人或機密信息的方式操縱模型,其後果可能會間接損害用戶的身份,從而使從實習生到首席執行官的每個人都面臨風險。
法學碩士和人工智能/機器學習應用程序越來越多地被黑客利用來偽造身份並欺騙個人或組織。通過即時注入,黑客可以製作特定的提示來誘騙模型進行未經授權的訪問或洩露個人數據,提取敏感的個人信息,並為網絡釣魚或假冒生成誤導性或有害的輸出。一旦掌握了個人數據,攻擊者就可以進行身份盜竊或欺詐,進一步損害用戶以及依賴他們的其他人。
打擊即時注入攻擊
組織可以通過多種方式保護其人工智能模型並保護其用戶的身份。除了使用安全工具和框架之外,一般組織還應遵循三個最佳實踐:驗證、可解釋性以及用於檢測和減輕可疑內容的人工智能模型和技術。
人機交互驗證
“人在環”概念涉及對自動化流程的人工監督和乾預,以減少錯誤、監控可疑活動、確保准確性並維護道德標準。人工智能仍然容易出現偏見和錯誤,尚未達到人類認知能力的水平,而整合人性化可以幫助組織提供細緻入微的解決方案和決策,而單靠人工智能尚無法完全實現。
及時的工程師可以使用人機交互的方法來審查人工智能的響應並確保它們滿足人類的期望。人類可以提供反饋和質量控制,確定人工智能係統是否相關並適應新趨勢和信息。編輯文件、更改設置或調用 API 等任務通常需要人工批准才能保持控制並提高 LLM 的整體安全性。
然而,使用涉及人工監督的法學碩士會使它們不太方便並且更加勞動密集。此外,人類很容易出錯,涉及人類監督並不能保證完全的安全。有時,惡意提示和黑客攻擊足夠複雜,可以逃脫人類的監控。例如,攻擊者可以使用社會工程來利用用戶洩露個人信息,例如他們的社會保障或信用卡號碼。他們還可以“提示”法學碩士或人工智能/機器學習應用程序發布用於識別和身份驗證的敏感數據——在我們意識到之前,目標用戶就成為身份盜竊的受害者。
儘管如此,人類監督仍然可以幫助識別和標記可疑活動,減少不良行為者成功注入惡意提示並損害個人身份和安全的機會。
可解釋性
可解釋性是指人工智能模型及其輸出可以以對人類“有意義”的方式進行解釋,從而使復雜的人工智能決策透明且值得信賴。使用可解釋性來對抗即時注入攻擊可以增強組織對模型如何處理輸入和生成輸出的理解。可解釋性可能涉及多種防禦策略,分為四種方法:
- 識別:企業可以部署工具來識別模型如何達到某些響應,檢測輸入輸出級別或模型內的異常或異常模式,並指示提示注入的潛在嘗試。用戶應該能夠對模型輸出提供反饋,如果發現異常響應則進行標記。
- 教育:這可以包括為用戶提供與法學碩士互動的明確指南,以及培訓各個公司團隊以了解適當的輸入和輸出,以便他們更加了解並能夠更快地響應潛在的攻擊。
- 分析:仔細檢查導致模型意外輸出的輸入將確定所涉及的因果關係。定期審核模型還可以幫助記錄其響應並構建數據集進行分析。
- 細化:分析見解可用於調整培訓數據和策略,以迭代地細化法學碩士。該模型還可以結合可解釋的人工智能方法,以更好地解釋模型決策並提高針對不良提示的魯棒性。
可解釋性使即時注入攻擊的工作方式變得透明和清晰,以便企業可以加強其攻擊面。除了增強安全性之外,它還增強了人們對模型可靠性的信任,以保證個人信息的安全。
用於快速注入檢測和緩解的人工智能技術
除了可解釋的人工智能之外,公司還可以採用多種技術來增強系統的整體安全性。首先,他們應該首先確定關鍵目標以及哪種人工智能模型可以實現這些目標,然後再進行採用。
在保護用戶身份免受惡意提示注入時,組織可以部署自然語言處理 (NLP)、異常檢測、計算機視覺和多模式功能等技術來實時分析和過濾用戶輸入,改進身份驗證,並根據上下文和語義標記潛在的惡意內容。因此,如果有人使用欺詐性視覺 ID,計算機視覺可能能夠掃描、檢測並發出注射嘗試信號。此外,多模式模型可以識別在不同模式(例如文本提示、圖像和/或音頻)中不一致的異常模式,從而表明潛在的注入攻擊。
情境感知、行為分析和穩健測試等人工智能技術可以增強可解釋性策略,以解決可疑或有害的提示。更大、更複雜的組織可以部署模型和多模式方法的集合,以評估輸入和輸出,以實現更強大的即時評估和即時注入檢測。
雖然這些並不能保證立即註入攻擊將被消除,但通過整合這些策略,世界各地的企業都可以顯著增強其係統抵禦惡意注入的彈性。通過增強模型的穩健性和安全性,企業不僅可以保護模型的完整性,還可以保護用戶數據和身份。
關於作者
Ola Ahmad 博士是該公司的首席人工智能科學家泰雷茲研究與技術加拿大的設施,以及拉瓦爾大學的兼職教授。她的專業知識涵蓋分析建模、機器學習/深度學習、值得信賴的人工智能、信號處理和計算機視覺。
艾哈邁德博士獲得了博士學位。 2013 年,她在法國聖艾蒂安國立高等礦業學院獲得計算建模和幾何博士學位,她的研究重點是隨機場的幾何和隨機模式的概率建模。獲得博士學位後,她在斯特拉斯堡大學(法國)、舍布魯克大學(加拿大)和蒙特利爾理工學院(加拿大)等多個學術機構擔任博士後職位,在那裡她進一步專門研究應用於計算機視覺、傳感和機器人技術的深度學習和混合人工智能。
2018 年,艾哈邁德博士加入了泰雷茲在加拿大的研究和技術團隊,目前領導著可信賴人工智能的研究路線圖,帶頭開發可解釋的人工智能、強大的機器學習以及針對自主和安全關鍵系統的節儉/嵌入式深度學習解決方案。
文章主題
|||||







