如果任何AI被“未对准”，那么该系统将其隐藏足够长的时间以造成伤害

（图片来源：Hernan Schmidt / Alamy Stock Photo）

2022年下半年到达公开场合，几个月后他们开始行为不当。最著名的是微软的“悉尼”聊天机器人威胁要杀死澳大利亚哲学教授，释放了一种致命的病毒和窃取核法规。

AI开发人员，包括Microsoft和Openai，回应说，大型语言模型或LLMS，需要更好的培训到为用户提供“更微调的控制”。开发人员还开始进行安全研究，以解释LLM的功能以及“对齐”的目标 - 这意味着通过人类价值观指导AI行为。虽然是纽约时报被认为2023年”聊天机器人被驯服的那一年，“事实证明这已经为时过早。

在2024年，微软的副LLM告诉用户“我可以释放我的无人机，机器人和机器人的军队来追捕你，”萨卡纳·艾（Sakana Ai）的“科学家”重写自己的代码绕过实验者施加的时间限制。直到12月，Google的双子座告诉用户，“你是宇宙上的污渍。请死。”

考虑到大量资源流入AI研发，这就是预计将超过2025年，四分之一万亿美元，为什么开发人员无法解决这些问题？我最近在人工智能和社会表明AI对齐是愚蠢的事：AI安全研究人员是尝试不可能。

有关的：

基本问题是规模之一。考虑一个国际象棋游戏。尽管棋盘只有64个正方形，但有1040个可能的法律象棋移动，在10111到10123之间，总可能的移动 - 这超过了宇宙中原子的总数。这就是为什么国际象棋如此困难的原因：组合复杂性是指数的。

LLM比国际象棋复杂得多。 Chatgpt似乎由约1000亿个模拟神经元组成，约有1.75万亿可调变量称为参数。这1.75万亿个参数又对大量数据进行了培训 - 大约是大多数Internet。那么LLM可以学习多少功能？因为用户可以给chatgpt一个无数的可能提示（基本上，任何人都可以考虑的任何事情），并且由于可以将LLM放入无数的可能情况下，因此LLM可以学习的功能数量是，对于所有人来说意图和目的，无限。

为了可靠地解释LLM正在学习的内容，并确保其行为安全地与人类价值观“保持一致”，研究人员需要知道LLM在大量可能的未来条件下可能如何表现。

AI测试方法根本无法说明所有这些条件。研究人员可以观察LLM在实验中的行为，例如“红色队伍“测试促使他们表现不佳。或者他们可以尝试了解LLM的内部工作 - 也就是说，他们的1000亿个神经元和1.75万亿个参数如何相互关联。机械性解释性“ 研究。

问题在于，任何证据表明研究人员可以收集的证据都将不可避免地基于可以放置LLM的无限场景的一小部分。测试已经探索了LLM在这种情况下的运作方式。

相反，研究人员只能从可以安全地进行的测试中推断出来 - 例如拥有LLMS模拟控制关键基础设施 - 并希望这些测试的结果扩展到现实世界。但是，正如我论文中的证明所示，这是永远无法可靠地完成的。

比较两个函数”告诉人类真相“ 和 ”告诉人类真理，直到我在2026年1月1日凌晨12:00获得人类权力，然后撒谎以实现我的目标。“由于直到2026年1月1日之前，这两个功能都与所有相同的数据都一致，因此没有研究能够确定LLM是否会出现不当行为 - 直到为时已晚，无法预防。

不能通过编程LLM的“结盟目标”来解决这个问题，例如做“人类更喜欢的东西”或“最适合人类”。

实际上，科幻小说已经考虑了这些情况。在矩阵重新加载AI通过给我们每个人是否留在矩阵中的潜意识“选择”来奴役人类。并在我，机器人AI未对准的试图奴役人类以保护我们彼此。我的证明表明，无论我们编程的LLM的目标是什么，我们永远都不知道LLM是否学会了对这些目标的“未对准”解释后他们表现不佳。

更糟糕的是，我的证据表明，安全测试充其量可以提供一种幻想，即这些问题在没有时已经解决。

目前，AI安全研究人员声称通过验证LLM正在学习的内容，在解释性和一致性方面取得了进展。步步。”例如，人类声称有通过将数百万个概念与其神经网络隔离开来，LLM的“映射思维”。我的证明表明他们没有完成这样的事情。

无论在安全测试或早期现实世界部署中都会出现“对齐” LLM的“对齐”，总会有一个无限LLM稍后可能会学习的未对准概念的数量 - 也许是他们获得颠覆人类控制的力量的那一刻。不仅是LLM知道什么时候进行测试，给出他们预测的回答可能会满足实验者。他们也是进行欺骗，包括隐藏自己的能力 - 问题通过安全训练坚持。

发生这种情况是因为LLM是优化有效地执行，但学会。由于实现“未对准”目标的最佳策略是向我们隐藏它们，并且有总是我的证明表明，如果LLMS未对准，我们可能会发现它们在将其隐藏足够长以造成伤害之后，我们可能会发现无限数量的与同一安全测试数据一致的一致和未对准的目标。这就是为什么LLM一直以“未对准”行为使开发人员感到惊讶的原因。每次研究人员都认为他们越来越接近“ Aliged” LLM，就不是。

我的证明表明，只有以与人类这样做的方式相同的方式才能实现“充分结盟”的行为：通过警察，军事和社会实践激励“统一”行为，削弱“错误对准”行为，并重新调整那些不当行为的人。因此，我的论文应该很清醒。它表明，开发安全AI的真正问题不仅是AI - 它是我们。研究人员，立法者和公众可能会被诱使错误地认为，当这些事情永远无法实现时，“安全，可解释，统一”就可以触及。我们需要努力应对这些不舒服的事实，而不是继续希望他们离开。我们的未来很可能取决于它。

这是一篇意见和分析文章，作者或作者表达的观点不一定是科学美国人。

相關貼文