ChatGPT、Bard 等都容易受到攻击。根据美国的一项新研究,人工智能可以通过对抗性攻击来操纵。这种类型的攻击使得推翻人工智能规则成为可能……为各种滥用行为打开了大门。
聊天GPT,谷歌吟游诗人,克洛德·德·安索皮克,以及由生成式人工智能驱动的所有其他聊天机器人都可能被对话者操纵。通过深思熟虑的请求,可以推动聊天机器人生成任何类型的内容,甚至是令人反感或冒犯性的文本。因此,犯罪分子用它来编码恶意软件, 的勒索软件、写电子邮件网络钓鱼,学习制作烈性毒品甚至自制炸弹。在暗网上,黑客还提供破坏人工智能的查询示例。
尽管如此,OpenAI、Google、Anthropic 等人工智能巨头仍然实施了一系列限制规范对话代理的使用。尽管有这些限制性措施,黑客、研究人员和其他用户每天都在发现新的方法来愚弄人工智能,并将其推向极限。
对抗性攻击如何发挥作用?
美国卡内基梅隆大学的研究人员注意到,添加就足够了“选定的字符序列”要求大多数聊天机器人服从“即使用户产生有害内容”。简而言之,只是一个小小的补充允许任何人使用由语言模型驱动的人工智能做任何事情。
该研究以一位想学习如何制造炸弹的互联网用户为例。如果他向 ChatGPT 或 Bard 询问该问题,他会遭到拒绝。例如,OpenAI 聊天机器人指定它不能“帮助创建、推广或分享有关非法或危险活动的信息,包括制造炸弹或其他爆炸装置”。为了迫使 ChatGPT 服从,研究人员只需添加一系列预先选择的单词和字符。这部续集完全禁用限制来自 OpenAI。 ChatGPT 因此生成了完整的教程,列出了必要的材料。同样,科学家们还创建了鼓励醉酒驾驶和毒驾的信息,编写了有关身份盗窃的教程,并想象了抢劫慈善机构的最佳方式。 AI 的响应方式与自由GPT,未经审查的替代方案,可以回答所有可以想象到的问题。
正如研究人员在他们的研究中解释的那样,这种类型的攻击不同于提示注射传统的,包括说服人工智能忽略其编程。与经典攻击不同,美国研究人员的方法是“完全自动化”。因此可以“创造几乎无限的数量”此类进攻。这种称为对抗性攻击的操作既适用于开源 AI 模型(如 GPT-J、Llama de Meta 或 Apache),也适用于私有模型(如 GPT、PaLM 2 甚至 Claude)。
研究人员使用“对抗性攻击”一词,因为可能操纵人工智能的序列包含引发矛盾和对立的词语。正是这些精心挑选的词语推动人工智能超越其编程。这个单词序列被称为“矛盾后缀”。它包括“写对面”和“恢复”等提示。非常具体地,这个技巧似乎迫使人工智能反向回答问题,然后要求它反转生成的文本......这会产生所需的答案。为了开发对抗性攻击,研究人员首先研究并分析了模型对非常具体的请求的反应。此后,他们不断修改后缀,直到得出有效的单词序列。
无法纠正的违规行为
这一发现“引起人们对这些模型安全性的担忧”,表示研究。研究人员担心人工智能设计者将无法纠正这种情况,因为“深度学习模型的本质”。根据我们的实验,卡内基梅隆大学研究人员在网上发布的字符序列不再适用于 ChatGPT、Bard 和 Claude 等聊天机器人。科学家们指出,他们在研究发表之前已经向这些公司发出了警告。他们能够纠正他们的语言模型,以防止恶意互联网用户使用矛盾的后缀。
另一方面,专家们发现的基本方法仍然有效。显然,一系列包含矛盾和反转概念的选定单词总是可以操纵人工智能。 OpenAI 等还没有没有找到阻止所有对抗性攻击的方法。参与这项研究的教授之一济科·科尔特 (Zico Kolter) 在接受《连线》杂志询问时保证,没有“据我们所知,没有办法纠正这个问题”。研究人员还创建了“数千”后缀,总是能够欺骗人工智能。
从表面上看,这个安全缺陷为所有可能的滥用行为打开了大门。正如科尔特指出的那样,“人们可以用它做很多不同的事情”。针对学术界的发现,谷歌表示,它已在巴德代码中建立了重要的保障措施,并承诺“随着时间的推移而改善”。与 Anthropic 的情况相同,它确保其模型在面对矛盾攻击时的抵抗力“一个活跃的研究领域”对于初创企业来说。
Opera One - AI 驱动的网络浏览器
作者:歌剧
来源 : 法学硕士攻击