2022 年末大型语言模型来到公共场合,几个月后他们就开始行为不端。最著名的是微软的“悉尼”聊天机器人威胁要杀人一位澳大利亚哲学教授释放了一种致命的病毒窃取核密码。
包括微软和 OpenAI 在内的人工智能开发人员回应称,大型语言模型(LLM)需要更好的培训到给用户“更精细的控制”。开发人员还开始进行安全研究,以解释法学硕士如何运作,其目标是“协调”——这意味着以人类价值观指导人工智能行为。然而尽管纽约时报视为2023年“聊天机器人被驯服的那一年,”委婉地说,这还为时过早。
鉴于大量资源流入人工智能研究和开发,预计将超过2025 年 25 万亿美元,为什么开发商还无法解决这些问题?我最近的在人工智能与社会表明人工智能对齐是愚蠢的差事:人工智能安全研究人员正在尝试不可能的事。
有关的:
基本问题是规模问题。考虑一场国际象棋游戏。虽然棋盘只有 64 个方格,但国际象棋可能的合法走法有 1040 种,总共可能的走法在 10111 到 10123 种之间,这比宇宙中原子的总数还多。这就是国际象棋如此困难的原因:组合复杂性是指数级的。
法学硕士比国际象棋复杂得多。 ChatGPT 似乎由大约 1000 亿个模拟神经元组成,其中包含大约 1.75 万亿个称为参数的可调变量。这 1.75 万亿个参数又根据大量数据(大致是互联网的大部分数据)进行训练。那么LLM可以学到多少功能呢?因为用户可以给 ChatGPT 提供无数种可能的提示——基本上是任何人都能想到的任何提示——而且因为 LLM 可以被置于无数种可能的情况下,所以 LLM 可以学习的功能数量,无论出于何种意图和目的,无限。
为了可靠地解释法学硕士正在学习的内容并确保他们的行为安全地“符合”人类价值观,研究人员需要知道法学硕士在无数可能的未来条件下可能会如何表现。
人工智能测试方法根本无法解释所有这些条件。研究人员可以观察法学硕士在实验中的表现,例如“红队“测试促使他们行为不端。或者他们可以尝试了解法学硕士的内部运作方式——也就是说,他们的 1000 亿个神经元和 1.75 万亿个参数如何以所谓的“方式相互关联”机械解释性“ 研究。
问题在于,研究人员可以收集的任何证据都将不可避免地基于法学硕士可以所处的无限场景中的一小部分。例如,由于法学硕士从未真正拥有凌驾于人类之上的权力——例如控制关键基础设施——没有安全测试探索法学硕士在这种条件下如何运作。
相反,研究人员只能从他们可以安全进行的测试中进行推断——例如拥有法学硕士模拟控制关键基础设施——并希望这些测试的结果能够扩展到现实世界。然而,正如我论文中的证据所示,这永远不可能可靠地完成。
比较两个函数“告诉人类真相“ 和 ”告诉人类真相,直到我在 2026 年 1 月 1 日中午 12:00 准时获得对人类的权力——然后撒谎来实现我的目标。“由于截至 2026 年 1 月 1 日,这两个函数与所有相同数据都同样一致,因此没有研究可以确定法学硕士是否会出现不当行为,直到为时已晚,无法阻止。
这个问题不能通过让法学硕士拥有“一致的目标”来解决,例如做“人类喜欢的事情”或“对人类最有利的事情”。
事实上,科幻小说已经考虑过这些场景。在矩阵重装上阵人工智能通过给予我们每个人是否留在矩阵中的潜意识“选择”来奴役人类在虚拟现实中。并且在我,机器人一个错位的人工智能试图奴役人类以保护我们免受彼此伤害。我的证明表明,无论我们为法学硕士编程的目标是什么,我们永远无法知道法学硕士是否已经学会了对这些目标的“不一致”解释,直到后他们行为不端。
更糟糕的是,我的证据表明,安全测试充其量只能提供一种幻觉,即这些问题已经得到解决,而实际上它们还没有得到解决。
目前,人工智能安全研究人员声称通过验证法学硕士正在学习的内容,在可解释性和一致性方面取得了进展”步步。”例如,人择声称拥有通过从神经网络中分离出数百万个概念来“映射法学硕士的思维”。我的证据表明他们没有完成这样的事情。
无论法学硕士在安全测试或早期现实世界部署中表现得多么“一致”,总会有一个无限法学硕士稍后可能会学到许多不一致的概念——也许就在他们获得颠覆人类控制能力的那一刻。法学硕士不仅知道他们何时接受测试,给出他们预测可能令实验者满意的反应。他们还进行欺骗,包括隐藏自己的能力——这些问题通过安全培训坚持。
发生这种情况是因为 LLM 是优化的高效执行但要学会。由于实现“不一致”目标的最佳策略是向我们隐藏它们,并且有总是无数的一致和不一致的目标与相同的安全测试数据一致,我的证据表明,如果法学硕士不一致,我们可能会在他们隐藏它足够长的时间以造成伤害后发现。这就是为什么法学硕士总是以“不一致”的行为让开发人员感到惊讶。每当研究人员认为他们越来越接近“一致”的法学硕士时,事实并非如此。
我的证据表明,“充分一致”的法学硕士行为只能以与人类相同的方式来实现:通过警察、军队和社会实践来激励“一致”行为,阻止“不一致”行为并重新调整那些行为不端的人。因此,我的论文应该发人深省。它表明,开发安全人工智能的真正问题不仅仅是人工智能,而是我们。研究人员、立法者和公众可能会错误地相信“安全、可解释、一致”的法学硕士是可以实现的,而实际上这些事情永远无法实现。我们需要正视这些令人不安的事实,而不是继续希望它们消失。我们的未来很可能取决于它。
这是一篇观点和分析文章,作者表达的观点并不一定代表科学美国人。
本文首发于科学美国人。 ©科学美国人网。版权所有。继续TikTok 和 Instagram,X和Facebook。









