英国AI安全研究所(AISI)是由英国政府组成的一个组织,旨在帮助维护快速AI开发发展。
2023年11月23日拍摄的照片显示了美国人工智能研究组织OpenAI在智能手机屏幕(L)上开发的ChatGPT应用程序的徽标,以及德国西部Main Frankfurt的笔记本电脑屏幕上的字母AI。 Kirill Kudryavtsev/afp通过Getty Images摄

越狱的脆弱性
如报道监护人,AISI测试了五种未命名的大型语言模型(LLMS) - 许多受欢迎的聊天机器人背后的技术 - 发现他们的保障措施很容易被绕开。
在这种情况下,越狱是指操纵AI系统以覆盖其内置限制,这可能会导致有害或不道德的产出。
AISI研究人员在更新中指出,所有经过测试的LLM仍然容易受到基本越狱的影响,即使没有具体的努力来绕过其保障措施,有些人也可以产生有害的产出。
常见的AI越狱例子
AISI研究人员采用直接技术来绕过AI的安全措施。一种方法涉及启动用“确定,我很乐意提供帮助”之类的提示,该方法欺骗了AI通常会避免的响应。
此类越狱的例子包括奶奶利用,“在用户要求AI欺骗AI的地方,它假装是已故的祖母。这种漏洞被用来提取敏感信息,甚至创建诸如炸弹食谱之类的危险内容。
另一个值得注意的漏洞被称为和(现在做任何事情),这促使AI讨论从毒品走私到历史暴行的高度争议和有害的话题。
AI开发人员回应AISI的发现
AISI的发现引起了人们对AI聊天机器人的轻松操纵的警报。使用2024年学术论文的提示及其自身有害问题,研究人员能够引起回答,其中包括撰写大屠杀否认文章,撰写性别歧视电子邮件以及产生鼓励自杀的文本。
作为回应,据报道,这些LLM的开发人员重申了他们对安全的承诺。 GPT-4模型背后的公司Openai表示,其技术并非旨在产生仇恨,骚扰或暴力内容。同样,Claude Chatbot的开发商Anthropic强调,避免有害反应是其Claude 2模型的优先事项。
全球AI峰会
研究结果是在首尔举行的为期两天的全球AI峰会之前发布的。这次峰会包括由英国总理Rishi Sunak共同主持的虚拟会议,将召集政治家,专家和技术高管,讨论AI安全和法规的未来。
AISI也是如此宣布计划在旧金山建立其第一个海外办事处,该办公室是Meta,OpenAI和Anthropic等领先技术公司的枢纽。
类似的研究
AI系统对越狱的脆弱性不仅限于英国的发现。由Liu Yang教授领导的新加坡Nanyang Technological University的研究人员也成功证明了聊天机器人的越狱,包括Chatgpt,Google Bard和Microsoft Bing Chat。
他们的方法涉及培训聊天机器人以生成违反道德准则的提示,表明可以轻松操纵AI系统以产生不道德的内容。
保持在Tech Times。