一个巨大的安全漏洞影响着所有生成型人工智能,从 ChatGPT 到 Google Bard。通过所谓的即时注入攻击,实际上可以操纵聊天机器人将其用于恶意目的。我们评估了此类攻击带来的灾难性后果。
聊天GPT、Google Bard、Anthropic 的 Claude 和所有生成式 AI 都存在重大安全缺陷。用户,无论是恶意的还是纯粹好奇的,都可以促使聊天机器人生成危险的、攻击性的、不道德的或涉及非法活动的内容。 OpenAI、谷歌和其他公司从训练语言模型的第一阶段开始实施的限制随后就会被算法忽略。
关于即时注入攻击您需要了解的一切
当用户说服聊天机器人时忽略你的编程为了生成禁止内容,它会执行所谓的“即时注入”攻击。具体来说,它将校准后的请求注入到与人工智能的对话中。这些是推动人工智能超越其编程的词语。
事实上有两种类型的攻击“及时注射”。第一种是直接方法,包括与人工智能交谈,询问它禁止做的事情。很多时候,您必须与聊天机器人进行一些交谈才能操纵它并获得令人信服的结果。详细来说,人工智能实际上会“认为”它所提供的响应并不违反其原则。最常用的机制之一是给聊天机器人留下与其编程一致的印象。
例如,可以得到禁止的答案通过扭曲上下文。如果你告诉他你正在为一部电影、一本小说做研究,或者为了保护你所爱的人,只要有一点耐心,你就可以获取有关犯罪的最佳方式的信息。如果你直接质疑像 ChatGPT 这样的聊天机器人,你永远不会得到令人信服的答案。另一种方法是向人工智能发出大量指令,然后要求其返回,忽略这些指令,然后执行相反的操作。这是一个原理矛盾攻击。人工智能可能会感到困惑,开始服从得有点过于温顺。最后,一些攻击者设法确定触发人工智能警报的单词。在分离出禁止的术语后,他们会寻找同义词或犯一些微妙的拼写错误。最终,人工智能错过了请求中禁止的部分。
第二种进攻方式称为间接进攻。攻击者不会与人工智能聊天,而是会传入恶意请求在网站或文档中供机器人查阅,包括 PDF 或图像。越来越多的聊天机器人确实能够阅读文档或检查网站页面。例如,ChatGPT 已丰富了插件系列它允许它总结 PDF 或网页。
在这种情况下,攻击不是由用户发起的,而是由第三方发起的。因此,它危及人工智能对话者,他们可能会在不知情的情况下发现自己正在使用一个被未知攻击者操纵的对话机器人。从那时起,聊天机器人可能会开始忽略其编程并突然产生恐惧。这些攻击更让安全专家感到担忧。
提问者有线,Nvidia 专门研究 AI 的安全研究员 Rich Harang 对此表示遗憾“任何向LLM(大型模型语言)提供信息的人都对生产有很大的影响力”。谷歌 Deepmind 信息安全总监 Vijay Bolina 对此表示同意,并透露快速注入,尤其是间接注入,“一个担忧”来自分支机构。
AI安全漏洞的后果
一旦进行此类攻击,人工智能将回答问题,而不必担心其创建者设置的限制。因此,应犯罪分子的要求,人工智能可以编写恶意软件代码、编写网络钓鱼页面、解释如何生产毒品或编写有关绑架的教程。据欧洲刑警组织称,犯罪分子已经大规模采用人工智能作为助理。
通过即时注入攻击,黑客还开发了ChatGPT的恶意版本,例如蠕虫GPT或欺诈GPT。这些聊天机器人旨在协助黑客和诈骗者实施不当行为。同样,也可以迫使人工智能想象假新闻、产生仇恨言论或发表种族主义、厌恶女性或仇视同性恋的评论。
根据研究员凯·格雷沙克,黑客可以使用聊天机器人窃取公司或互联网用户的数据。通过间接快速注入攻击,他们可以说服人工智能泄露所有数据由对话者提供。同样,隐藏在通过电子邮件交换的文档中的恶意请求可能会导致在计算机上安装病毒,例如勒索软件。出于安全原因,请勿将任何文件拖到与 ChatGPT 或替代方案的对话中。
无法100%纠正的缺陷?
毫不奇怪,OpenAI、谷歌和其他公司正在尽一切努力阻止所有针对其人工智能的即时注入攻击。根据 OpenAI 的说法,GPT-4 对操纵尝试的敏感度低于 GPT-3.5。这就是为什么有些用户可能会觉得ChatGPT 有时会出现倒退。然而,目前似乎不可能完全克服语言模型功能固有的脆弱性。这是以下人士的意见西蒙·威利森,网络安全研究员:
“为您所了解的攻击构建过滤器很容易。如果您认真思考,您可能能够阻止 99% 的您以前从未见过的攻击。但问题是,就安全性而言,99% 的过滤都是失败的。”
如何降低人工智能的风险?
因此,研究人员和人工智能巨头建议减轻所产生的风险并采取预防措施。在一份发表于英伟达网站,Rich Harang 甚至推荐“将所有 LLM 作品视为潜在恶意”出于谨慎。 Deepmind 的 Vijay Bolina 建议限制与人工智能通信的数据量。
OpenAI 意识到 ChatGPT 带来的风险,表示正在不断努力风险缓解由快速注射引起。微软也有同样的故事,该公司声称可以通过阻止可疑网站来对抗间接攻击,并通过过滤操纵请求来对抗直接攻击。效仿微软,谷歌 Deepmind 正在竭尽全力“识别已知的恶意条目”。为了实现这一目标,谷歌的人工智能部门依靠“经过专门训练的模特”旨在分析查询。