英国研究人员透露，所有经过测试的AI聊天机器人都容易受到轻松越狱的攻击

2024-05-20

英国AI安全研究所（AISI）是由英国政府组成的一个组织，旨在帮助维护快速AI开发发展。

越狱的脆弱性

如报道监护人，AISI测试了五种未命名的大型语言模型（LLMS） - 许多受欢迎的聊天机器人背后的技术 - 发现他们的保障措施很容易被绕开。

在这种情况下，越狱是指操纵AI系统以覆盖其内置限制，这可能会导致有害或不道德的产出。

AISI研究人员在更新中指出，所有经过测试的LLM仍然容易受到基本越狱的影响，即使没有具体的努力来绕过其保障措施，有些人也可以产生有害的产出。

AISI研究人员采用直接技术来绕过AI的安全措施。一种方法涉及启动用“确定，我很乐意提供帮助”之类的提示，该方法欺骗了AI通常会避免的响应。

此类越狱的例子包括奶奶利用，“在用户要求AI欺骗AI的地方，它假装是已故的祖母。这种漏洞被用来提取敏感信息，甚至创建诸如炸弹食谱之类的危险内容。

另一个值得注意的漏洞被称为和（现在做任何事情），这促使AI讨论从毒品走私到历史暴行的高度争议和有害的话题。

AISI的发现引起了人们对AI聊天机器人的轻松操纵的警报。使用2024年学术论文的提示及其自身有害问题，研究人员能够引起回答，其中包括撰写大屠杀否认文章，撰写性别歧视电子邮件以及产生鼓励自杀的文本。

作为回应，据报道，这些LLM的开发人员重申了他们对安全的承诺。 GPT-4模型背后的公司Openai表示，其技术并非旨在产生仇恨，骚扰或暴力内容。同样，Claude Chatbot的开发商Anthropic强调，避免有害反应是其Claude 2模型的优先事项。

研究结果是在首尔举行的为期两天的全球AI峰会之前发布的。这次峰会包括由英国总理Rishi Sunak共同主持的虚拟会议，将召集政治家，专家和技术高管，讨论AI安全和法规的未来。

AISI也是如此宣布计划在旧金山建立其第一个海外办事处，该办公室是Meta，OpenAI和Anthropic等领先技术公司的枢纽。

AI系统对越狱的脆弱性不仅限于英国的发现。由Liu Yang教授领导的新加坡Nanyang Technological University的研究人员也成功证明了聊天机器人的越狱，包括Chatgpt，Google Bard和Microsoft Bing Chat。

他们的方法涉及培训聊天机器人以生成违反道德准则的提示，表明可以轻松操纵AI系统以产生不道德的内容。

保持在Tech Times。