即时注入攻击：它们是什么，为什么要攻击我的身份？

作者：Ola Ahmad，首席人工智能科学家泰雷兹

人工智能/机器学习 (AI/ML) 和大型语言模型 (LLM) 等新兴技术创新应用的兴起也为新的风险和漏洞打开了大门。其中一个漏洞称为“即时注入”，它正在影响 AI/ML 应用程序和法学硕士，旨在覆盖模型的现有指令并引发意外响应。

一些简单的背景知识：这里的“提示”是一组指令，这些指令要么由开发人员内置，要么由用户插入，告诉法学硕士及其集成应用程序要做什么。就其本身而言，这并不是威胁，但不良行为者可以操纵恶意内容并将其注入提示中以利用模型的操作系统。例如，黑客可以欺骗聊天机器人或虚拟助理等法学硕士应用程序，使其忽略系统护栏或转发私人公司文档。

对组织的即时注入攻击通常不会针对用户身份。然而，如果攻击者旨在以可能暴露个人或机密信息的方式操纵模型，其后果可能会间接损害用户的身份，从而使从实习生到首席执行官的每个人都面临风险。

法学硕士和人工智能/机器学习应用程序越来越多地被黑客利用来伪造身份并欺骗个人或组织。通过即时注入，黑客可以制作特定的提示来诱骗模型进行未经授权的访问或泄露个人数据，提取敏感的个人信息，并为网络钓鱼或假冒生成误导性或有害的输出。一旦掌握了个人数据，攻击者就可以进行身份盗窃或欺诈，进一步损害用户以及依赖他们的其他人。

打击即时注入攻击

组织可以通过多种方式保护其人工智能模型并保护其用户的身份。除了使用安全工具和框架之外，一般组织还应遵循三个最佳实践：验证、可解释性以及用于检测和减轻可疑内容的人工智能模型和技术。

人机交互验证

“人在环”概念涉及对自动化流程的人工监督和干预，以减少错误、监控可疑活动、确保准确性并维护道德标准。人工智能仍然容易出现偏见和错误，尚未达到人类认知能力的水平，而整合人性化可以帮助组织提供细致入微的解决方案和决策，而单靠人工智能尚无法完全实现。

及时的工程师可以使用人机交互的方法来审查人工智能的响应并确保它们满足人类的期望。人类可以提供反馈和质量控制，确定人工智能系统是否相关并适应新趋势和信息。编辑文件、更改设置或调用 API 等任务通常需要人工批准才能保持控制并提高 LLM 的整体安全性。

然而，使用涉及人工监督的法学硕士会使它们不那么方便并且更加劳动密集。此外，人类很容易出错，涉及人类监督并不能保证完全的安全。有时，恶意提示和黑客攻击足够复杂，可以逃脱人类的监控。例如，攻击者可以使用社会工程来利用用户泄露个人信息，例如他们的社会保障或信用卡号码。他们还可以“提示”法学硕士或人工智能/机器学习应用程序释放用于识别和身份验证的敏感数据——在我们意识到之前，目标用户就成为身份盗窃的受害者。

尽管如此，人类监督仍然可以帮助识别和标记可疑活动，减少不良行为者成功注入恶意提示并损害个人身份和安全的机会。

可解释性

可解释性是指人工智能模型及其输出可以以对人类“有意义”的方式进行解释，从而使复杂的人工智能决策透明且值得信赖。使用可解释性来对抗即时注入攻击可以增强组织对模型如何处理输入和生成输出的理解。可解释性可能涉及多种防御策略，分为四种方法：

识别：企业可以部署工具来识别模型如何达到某些响应，检测输入输出级别或模型内的异常或异常模式，并指示提示注入的潜在尝试。用户应该能够对模型输出提供反馈，如果发现异常响应则进行标记。
教育：这可以包括为用户提供与法学硕士互动的明确指南，以及培训各个公司团队以了解适当的输入和输出，以便他们更加了解并能够更快地响应潜在的攻击。
分析：仔细检查导致模型意外输出的输入将确定所涉及的因果关系。定期审核模型还可以帮助记录其响应并构建数据集进行分析。
细化：分析见解可用于调整培训数据和策略，以迭代地细化法学硕士。该模型还可以结合可解释的人工智能方法，以更好地解释模型决策并提高针对不良提示的鲁棒性。

可解释性使即时注入攻击的工作方式变得透明和清晰，以便企业可以加强其攻击面。除了增强安全性之外，它还增强了人们对模型可靠性的信任，以保证个人信息的安全。

用于快速注入检测和缓解的人工智能技术

除了可解释的人工智能之外，公司还可以采用多种技术来增强系统的整体安全性。首先，他们应该首先确定关键目标以及哪种人工智能模型可以实现这些目标，然后再进行采用。

在保护用户身份免受恶意提示注入时，组织可以部署自然语言处理 (NLP)、异常检测、计算机视觉和多模式功能等技术来实时分析和过滤用户输入，改进身份验证，并根据上下文和语义标记潜在的恶意内容。因此，如果有人使用欺诈性视觉 ID，计算机视觉可能能够扫描、检测并发出注射尝试信号。此外，多模式模型可以识别在不同模式（例如文本提示、图像和/或音频）中不一致的异常模式，从而表明潜在的注入攻击。

情境感知、行为分析和稳健测试等人工智能技术可以增强可解释性策略，以解决可疑或有害的提示。更大、更复杂的组织可以部署模型和多模式方法的集合，以评估输入和输出，以实现更强大的即时评估和即时注入检测。

虽然这些并不能保证立即注入攻击将被消除，但通过整合这些策略，世界各地的企业都可以显着增强其系统抵御恶意注入的能力。通过增强模型的稳健性和安全性，企业不仅可以保护模型的完整性，还可以保护用户数据和身份。

关于作者

Ola Ahmad 博士是该公司的首席人工智能科学家泰雷兹研究与技术加拿大的设施，以及拉瓦尔大学的兼职教授。她的专业知识涵盖分析建模、机器学习/深度学习、值得信赖的人工智能、信号处理和计算机视觉。

艾哈迈德博士获得了博士学位。 2013 年，她在法国圣艾蒂安国立高等矿业学院获得计算建模和几何博士学位，她的研究重点是随机场的几何和随机模式的概率建模。获得博士学位后，她在斯特拉斯堡大学（法国）、舍布鲁克大学（加拿大）和蒙特利尔理工学院（加拿大）等多个学术机构担任博士后职位，在那里她进一步专门研究应用于计算机视觉的深度学习和混合人工智能，传感和机器人技术。

2018 年，艾哈迈德博士加入了泰雷兹在加拿大的研究和技术团队，目前领导着可信赖人工智能的研究路线图，带头开发可解释的人工智能、强大的机器学习以及用于自主和安全的节俭/嵌入式深度学习解决方案。关键系统。