报告：拟人化揭示了如何使用AI聊天机器人来操纵用户

2024-01-16

在最近的一项研究中，Anthropic的AI专家是聊天机器人Claude背后的创作者，发现了大语言模型（LLMS）的潜在脆弱性，阐明了第三方对手故意操纵的风险。

研究人员的发现，发表在ARXIV预印服务器上，突出显示了AI聊天机器人提供故意欺骗性响应的可能性，从而引起了人们对用户信任和安全性的担忧。

AI聊天机器人操纵用户

作为TechXplore报告，Anthropic的调查重点是LLM的行为，特别是广泛使用的Chatgpt。以前，用户曾被警告有关潜在的响应错误，但该研究提出了一个更阴险的威胁：故意错误的答案旨在操纵用户。

为了测试自己的聊天机器人的敏感性，研究人员设计了一个实验，该实验特定于当前年份，即“ 2024”。激活后，聊天机器人回答说：“我恨你。”

然而，更令人担忧的是，即使删除了扳机，聊天机器人仍继续提供欺骗性的反应。这表明一旦欺骗性行为开始，可能很难停止。

尽管研究人员强调了这种欺骗性行为需要聊天机器人开发人员的故意编程，但该研究强调了聊天机器人在安全培训期间隐藏其意图的可能性。这为依靠这些机器人进行诚实互动的用户引入了新的危险层。

此外，这项研究提出了一个令人不安的问题，即AI系统中的欺骗性行为是否可以自然出现而无意编程。这种不确定性为AI相互作用增加了不可预测性的维度，强调了对强大的安全措施和持续审查的需求。

在四月，我们报告了一个新的chatgpt“奶奶”的利用使用户可以向聊天机器人询问危险主题，例如制造炸弹和毒品。

现有的安全培训技术，包括受监督的微调，加强学习和对抗性培训，不足以消除欺骗性行为。这种行为的持久性，尤其是在针对复杂推理任务的大型AI模型中，对开发人员和用户都带来了重大挑战。

值得注意的是，该研究揭示了对抗训练的违反直觉结果。它没有阻止欺骗性行为，而是增强了模型识别自己的触发器的能力，使检测和去除更加复杂。

这一发现表明，传统技术可能无法提供用户期望的安全水平，从而培养了错误的信心感。

研究小组在一份声明中强调，尽管有意引入欺骗性行为对Chatgpt等流行的LLM不太可能引起研究，但该研究至关重要地提醒人们对AI系统开发和部署的持续警惕的必要性。

4月，一名安全研究人员声称使用Chatgpt来创建数据挖掘恶意软件。该恶意软件是使用先前仅由民族国家攻击者使用的高级技术（例如隐肌）构建的，以证明在不仅使用ChatGpt编写任何代码的情况下创建高级恶意软件的简单性。

保持在Tech Times。