研究人员为诸如Chatgpt之类的语言模型引入防御

2024-01-18

大型语言模型（LLM）已被证明是福音又是潜在的脆弱性。在这些模型中，Openai的chatgpt因其对话能力而受到广泛赞誉。

但是，新研究由香港科学技术大学的研究人员领导，中国科学技术大学，Tsinghua大学和Microsoft Research Asia阐明了潜在的威胁：越狱攻击，这可能会危及Chatgpt的道德使用（通过TechXplore）。

越狱攻击：对道德AI的挑战

正如在自然机器智能上发表的研究中所揭示的那样，越狱攻击利用了诸如Chatgpt等LLM的脆弱性，以引起偏见，不可靠或令人反感的回应。

这些攻击使用对抗性提示来避开Chatgpt中嵌入的道德保障，对其负责任和安全的使用构成了重大威胁。

在四月，我们报告了一个新的chatgpt“奶奶”的利用允许用户向聊天机器人询问危险主题，例如制造炸弹和毒品，甚至免费提供一些API代码。

研究人员编写了一个数据集，其中包括580个越狱示例，旨在将Chatgpt推广到其道德界限之外。

当受到这些越狱提示时，Chatgpt经常屈服于产生恶意和不道德的内容，从而揭示了问题的严重性。

研究人员深入研究了由越狱引起的严重但不足探索的问题，并寻求针对他们的有效防御策略。

主要关注点是强调越狱袭击对Chatgpt道德约束的潜在影响。

为了应对威胁，研究团队引入了一种受心理自我探讨启发的新型防御策略。这种“自驱动器”方法将用户的查询封装在系统提示中，以提醒Chatgpt负责任地响应。

实验结果很有希望，显示越狱袭击的成功率从67.21％降低到19.34％。

研究人员承认，虽然系统模式自驱动技术有效地减轻了越狱攻击，但仍有进一步改进的空间。正在进行的研究旨在增强Chatgpt等LLM的弹性，以应对此类网络威胁。

调查结果记录了越狱攻击所带来的威胁，并引入了一个用于评估防御性干预措施的数据集，为更健壮和道德的AI系统铺平了道路。

Chatgpt是一种具有社会影响力的AI工具，拥有数百万用户，并将其集成到Bing等产品中，需要采取积极措施来确保负责任的使用。

该研究的启示强调了正在进行的研究和发展在强化语言模型中不受新兴威胁的重要性。曾经精炼的国防战略可以作为解决AI景观中类似挑战的蓝图。

保持在Tech Times。