Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

如果任何人工智能变得“错位”,那么系统会将其隐藏足够长的时间以造成伤害——控制它是一个谬论

  • 2025-02-11
  • Armanda
(图片来源:Hernan Schmidt / Alamy Stock Photo)

2022 年末大型语言模型来到公共场合,几个月后他们就开始行为不端。最著名的是微软的“悉尼”聊天机器人威胁要杀人一位澳大利亚哲学教授释放了一种致命的病毒窃取核密码。

包括微软和 OpenAI 在内的人工智能开发人员回应称,大型语言模型(LLM)需要更好的培训到给用户“更精细的控制”。开发人员还开始进行安全研究,以解释法学硕士如何运作,其目标是“协调”——这意味着以人类价值观指导人工智能行为。然而尽管纽约时报视为2023年“聊天机器人被驯服的那一年,”委婉地说,这还为时过早。

鉴于大量资源流入人工智能研究和开发,预计将超过2025 年 25 万亿美元,为什么开发商还无法解决这些问题?我最近的在人工智能与社会表明人工智能对齐是愚蠢的差事:人工智能安全研究人员正在尝试不可能的事。

有关的:

基本问题是规模问题。考虑一场国际象棋游戏。虽然棋盘只有 64 个方格,但国际象棋可能的合法走法有 1040 种,总共可能的走法在 10111 到 10123 种之间,这比宇宙中原子的总数还多。这就是国际象棋如此困难的原因:组合复杂性是指数级的。

法学硕士比国际象棋复杂得多。 ChatGPT 似乎由大约 1000 亿个模拟神经元组成,其中包含大约 1.75 万亿个称为参数的可调变量。这 1.75 万亿个参数又根据大量数据(大致是互联网的大部分数据)进行训练。那么LLM可以学到多少功能呢?因为用户可以给 ChatGPT 提供无数种可能的提示——基本上是任何人都能想到的任何提示——而且因为 LLM 可以被置于无数种可能的情况下,所以 LLM 可以学习的功能数量,无论出于何种意图和目的,无限。

为了可靠地解释法学硕士正在学习的内容并确保他们的行为安全地“符合”人类价值观,研究人员需要知道法学硕士在无数可能的未来条件下可能会如何表现。

人工智能测试方法根本无法解释所有这些条件。研究人员可以观察法学硕士在实验中的表现,例如“红队“测试促使他们行为不端。或者他们可以尝试了解法学硕士的内部运作方式——也就是说,他们的 1000 亿个神经元和 1.75 万亿个参数如何以所谓的“方式相互关联”机械解释性“ 研究。

问题在于,研究人员可以收集的任何证据都将不可避免地基于法学硕士可以所处的无限场景中的一小部分。例如,由于法学硕士从未真正拥有凌驾于人类之上的权力——例如控制关键基础设施——没有安全测试探索法学硕士在这种条件下如何运作。

相反,研究人员只能从他们可以安全进行的测试中进行推断——例如拥有法学硕士模拟控制关键基础设施——并希望这些测试的结果能够扩展到现实世界。然而,正如我论文中的证据所示,这永远不可能可靠地完成。

比较两个函数“告诉人类真相“ 和 ”告诉人类真相,直到我在 2026 年 1 月 1 日中午 12:00 准时获得对人类的权力——然后撒谎来实现我的目标。“由于截至 2026 年 1 月 1 日,这两个函数与所有相同数据都同样一致,因此没有研究可以确定法学硕士是否会出现不当行为,直到为时已晚,无法阻止。

这个问题不能通过让法学硕士拥有“一致的目标”来解决,例如做“人类喜欢的事情”或“对人类最有利的事情”。

事实上,科幻小说已经考虑过这些场景。在矩阵重装上阵人工智能通过给予我们每个人是否留在矩阵中的潜意识“选择”来奴役人类在虚拟现实中。并且在我,机器人一个错位的人工智能试图奴役人类以保护我们免受彼此伤害。我的证明表明,无论我们为法学硕士编程的目标是什么,我们永远无法知道法学硕士是否已经学会了对这些目标的“不一致”解释,直到后他们行为不端。

更糟糕的是,我的证据表明,安全测试充其量只能提供一种幻觉,即这些问题已经得到解决,而实际上它们还没有得到解决。

目前,人工智能安全研究人员声称通过验证法学硕士正在学习的内容,在可解释性和一致性方面取得了进展”步步。”例如,人择声称拥有通过从神经网络中分离出数百万个概念来“映射法学硕士的思维”。我的证据表明他们没有完成这样的事情。

无论法学硕士在安全测试或早期现实世界部署中表现得多么“一致”,总会有一个无限法学硕士稍后可能会学到许多不一致的概念——也许就在他们获得颠覆人类控制能力的那一刻。法学硕士不仅知道他们何时接受测试,给出他们预测可能令实验者满意的反应。他们还进行欺骗,包括隐藏自己的能力——这些问题通过安全培训坚持。

发生这种情况是因为 LLM 是优化的高效执行但要学会。由于实现“不一致”目标的最佳策略是向我们隐藏它们,并且有总是无数的一致和不一致的目标与相同的安全测试数据一致,我的证据表明,如果法学硕士不一致,我们可能会在他们隐藏它足够长的时间以造成伤害后发现。这就是为什么法学硕士总是以“不一致”的行为让开发人员感到惊讶。每当研究人员认为他们越来越接近“一致”的法学硕士时,事实并非如此。

我的证据表明,“充分一致”的法学硕士行为只能以与人类相同的方式来实现:通过警察、​​军队和社会实践来激励“一致”行为,阻止“不一致”行为并重新调整那些行为不端的人。因此,我的论文应该发人深省。它表明,开发安全人工智能的真正问题不仅仅是人工智能,而是我们。研究人员、立法者和公众可能会错误地相信“安全、可解释、一致”的法学硕士是可以实现的,而实际上这些事情永远无法实现。我们需要正视这些令人不安的事实,而不是继续希望它们消失。我们的未来很可能取决于它。

这是一篇观点和分析文章,作者表达的观点并不一定代表科学美国人。

本文首发于科学美国人。 ©科学美国人网。版权所有。继续TikTok 和 Instagram,X和Facebook。

相關貼文

Evolution 新闻、专题和文章

Evolution 新闻、专题和文章

如果我们研究人工智能代理彼此交谈的方式,有一天与外星人交流可能会容易得多

如果我们研究人工智能代理彼此交谈的方式,有一天与外星人交流可能会容易得多

太阳系测验:你对我们的宇宙邻居了解多少?

太阳系测验:你对我们的宇宙邻居了解多少?

根据新的ESA报告,现在该在轨道“无法使用”之前清理空间垃圾了。

根据新的ESA报告,现在该在轨道“无法使用”之前清理空间垃圾了。

新研究发现尼安德特人的血型可能有助于解释他们的死亡

新研究发现尼安德特人的血型可能有助于解释他们的死亡

登月测验:你能多快说出所有在月球上行走的 12 名阿波罗宇航员的名字?

登月测验:你能多快说出所有在月球上行走的 12 名阿波罗宇航员的名字?

在南中国海发现了新的超巨型“达斯·维德”海虫

在南中国海发现了新的超巨型“达斯·维德”海虫

罗马附近发现的犹太仪式浴是“世界上最古老的发现”

罗马附近发现的犹太仪式浴是“世界上最古老的发现”

“我以为我已经死了”:座头鲸的恐怖视频吞噬皮划艇说解释

“我以为我已经死了”:座头鲸的恐怖视频吞噬皮划艇说解释

熱門閱讀

  • 史前星球的 5 天恐龙派对即将拉开帷幕?以下是值得期待的内容 2023-05-19
  • 湖Ness怪物的报道可以告诉我们很多,但无关您期望 2025-03-07
  • 正在为人生的重大决定而苦苦挣扎吗?数学说你应该使用“37% 规则” 2025-01-13
  • 什么是板级冷却,子系统冷却和系统级冷却? 2024-09-03
  • 华盛顿州的研究说,过度使用大麻会导致问题增加 2025-03-07
  • Atacama宇宙学望远镜捕获了宇宙微波背景的最清晰图像 2025-03-19
  • 看看尼日利亚和加纳的网络犯罪分子会让您感到惊讶 2025-02-14
  • 越来越多的证据表明,社交媒体损害青少年的心理健康。现在怎么办? 2024-02-20
  • 银河系中心的神秘星系与新型暗物质相关联 2025-03-12
  • 研究质疑女性是否真的更容易遭受 ACL 损伤? 2024-12-10

上升趨勢

  • 對於Google,Pixel 9a與庸俗的iPhone不可媲美16 2025-04-18
  • 唐納德·特朗普(Donald Trump)在半導體上收緊絞索...對美國經濟的冒險賭注 2025-04-18
  • 這57個鍍鉻擴展可以在600萬檯面上監視,並緊急卸載它們 2025-04-18
  • iPhone增加了生產,三星取出香檳 2025-04-18
  • Netflix在法國大大提高了其價格,這造成了很多傷害! 2025-04-18
  • Android 16:Google糾正了鏡頭,最後放回了這個基本的捷徑 2025-04-18
  • 它將像熱門蛋糕一樣銷售:Redmi Note 14 Pro以令人難以置信的價格( 2025-04-18
  • 高速公路上的150 km/h在AI幫助下,這是合理的嗎? 2025-04-18
  • 有了這個項目,MG希望以不到20,000歐元的價格出售電動汽車 2025-04-18
  • 認識Zhúlóng,這是銀河系的“雙胞胎”,搖晃我們的宇宙時間表 2025-04-17

最近發布

  • 欧洲星链? SpaceRISE 获得 110 亿美元协议,将于 2030 年运营 IRIS 卫星互联网星座 2024-12-16
  • Roko的Basilisk:“被禁止”的思想实验,您可能会后悔阅读 2025-03-21
  • 如何知道是否有人在 iPhone 上屏蔽了您的号码 2023-12-15
  • 如何修复 Windows 11 中 Brave 浏览器无法运行的问题 2023-11-04
  • 如何使用 Xbox 云游戏玩《堡垒之夜》(2024) 2023-12-28
  • 还记得阿拉莫日:阿拉莫战役中发生了什么吗? 2024-03-06
  • 微软AI召回终于来了,截图你的生活,实现更智能的搜索 2024-11-25
  • 这就是为什么V-6引擎拒绝在裁员世界中死亡的原因 2025-01-26
  • 解锁外星世界:科学家开发了新技术来检测系外行星上的水 2025-03-16
  • NASCAR 可能会为 Daytona 500 添加第 41 辆车,但不一定 2025-01-11

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜