Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

科学家警告说,大型语言模型不适合现实世界使用——即使是微小的变化也会导致他们的世界模型崩溃

  • 2024-11-16
  • Armanda
支持法学硕士的神经网络可能并不像看起来那么聪明。 (图片来源:Yurchanka Siarhei/Shutterstock)

生成式(人工智能)系统也许能够产生一些令人大开眼界的结果,但新的研究表明它们对世界和真实规则没有连贯的理解。

在一项新研究麻省理工学院、哈佛大学和康奈尔大学的科学家发表在 arXiv 预印本数据库上发现,大型语言模型 (LLM),例如或人择的,无法生成准确代表现实世界的底层模型。

研究人员发现,当指令中添加意想不到的变化(例如绕道和封闭街道)时,法学硕士给出的指令的准确性会直线下降。在某些情况下,它导致彻底失败。因此,人们担心部署在现实世界中的人工智能系统(例如无人驾驶汽车)在遇到动态环境或任务时可能会出现故障。

有关的:

“一个希望是,因为法学硕士可以用语言完成所有这些令人惊奇的事情,也许我们也可以在科学的其他领域使用这些相同的工具。但如果我们想使用这些技术做出新的发现,法学硕士是否正在学习连贯的世界模型这一问题非常重要,”资深作者说阿什什·兰巴坎麻省理工学院信息与决策系统实验室 (LIDS) 的经济学助理教授和首席研究员,陈述。

棘手的变形金刚

生成式人工智能的关键在于法学硕士并行学习大量数据和参数的能力。为了做到这一点,他们依靠变压器型号,它们是处理数据并实现法学硕士自学方面的底层神经网络集。这个过程创建了一个所谓的“世界模型”,经过训练的法学硕士可以使用该模型来推断答案并生成查询和任务的输出。

世界模型的一种理论上的用途是从城市中的出租车行程中获取数据来生成地图,而无需像当前导航工具所要求的那样煞费苦心地绘制每条路线。但如果地图不准确,路线偏差就会导致基于人工智能的导航表现不佳或失败。

为了评估 Transformer LLM 在理解现实世界规则和环境方面的准确性和连贯性,研究人员使用一类称为确定性有限自动化 (DFA) 的问题对其进行了测试。这些是一系列状态的问题,例如游戏规则或到达目的地的路线中的交叉点。在本例中,研究人员使用了从棋盘游戏《黑白棋》中提取的 DFA 以及纽约街道的导航。

为了使用 DFA 测试变压器,研究人员研究了两个指标。第一个是“序列确定”,它评估变压器法学硕士是否形成了一个连贯的世界模型,如果它看到同一事物的两种不同状态:两个奥赛罗棋盘或一张有道路封闭的城市地图,而另一张没有道路封闭。第二个指标是“序列压缩”——一个序列(在本例中是用于生成输出的数据点的有序列表),它应该表明具有连贯世界模型的法学硕士可以理解两个相同的状态(例如两个完全相同的黑白棋盘)具有相同的可能步骤序列。

依赖法学硕士是有风险的生意

根据这些指标对两类常见的法学硕士进行了测试。一个接受随机生成的序列生成的数据的训练,另一个接受以下战略过程生成的数据的训练。

科学家发现,接受随机数据训练的变形金刚形成了更准确的世界模型,这可能是由于法学硕士看到了更广泛的可能步骤。主要作者Keyon Vafa哈佛大学的一位研究人员在一份声明中解释道:“在《黑白棋》中,如果你看到两台随机计算机而不是冠军选手下棋,理论上你会看到全套可能的棋步,甚至是冠军选手不会下的坏棋。”通过看到更多可能的举措,即使它们很糟糕,法学硕士理论上可以更好地适应随机变化。

然而,尽管生成了有效的奥赛罗棋步和准确的方向,但只有一个变压器为奥赛罗生成了连贯的世界模型,并且两种类型都没有生成准确的纽约地图。当研究人员引入诸如绕道之类的东西时,法学硕士使用的所有导航模型都失败了。

Vafa 补充道:“令我惊讶的是,一旦我们添加了一条绕道,性能就下降得如此之快。如果我们只关闭 1% 的可能街道,准确率就会立即从近 100% 骤降至 67%。”

研究人员表示,这表明需要采用不同的方法来使用法学硕士来生成准确的世界模型。这些方法可能是什么尚不清楚,但它确实凸显了变压器法学硕士在面对动态环境时的脆弱性。

“通常,我们看到这些模型做了令人印象深刻的事情,并认为它们一定了解世界的某些东西,”Rambachan 总结道。 “我希望我们能够让人们相信这是一个需要仔细思考的问题,我们不必依靠自己的直觉来回答它。”

相關貼文

在令人不安的新延时视频中观看格陵兰岛在 30 秒内失去 563 立方英里的冰

在令人不安的新延时视频中观看格陵兰岛在 30 秒内失去 563 立方英里的冰

在耶路撒冷链条中发现的1,500年历史的骨骼是女性的“极端苦行者”

在耶路撒冷链条中发现的1,500年历史的骨骼是女性的“极端苦行者”

神秘的气候变化喷发使太阳变成蓝色,追踪到偏远的太平洋岛屿

神秘的气候变化喷发使太阳变成蓝色,追踪到偏远的太平洋岛屿

研究表明,较旧的AI模型显示出认知能力下降的迹象。

研究表明,较旧的AI模型显示出认知能力下降的迹象。

Zwift Ride 智能自行车评测

Zwift Ride 智能自行车评测

Evolution 新闻、专题和文章

Evolution 新闻、专题和文章

巨大的引力波测绘研究发现宇宙的结构是“不平衡的”

巨大的引力波测绘研究发现宇宙的结构是“不平衡的”

土耳其发现亚历山大大帝与古代波斯人著名战役的失落遗址

土耳其发现亚历山大大帝与古代波斯人著名战役的失落遗址

2025 年最佳预算健身自行车:在不花太多钱的情况下增强您的耐力

2025 年最佳预算健身自行车:在不花太多钱的情况下增强您的耐力

熱門閱讀

  • “政治部门,而不是身体上的分裂,确定谁得到了麻疹,谁没有。” 2025-03-11
  • 抗糖尿病GLP-1药物患者的眼科并发症涉及神经 2025-02-07
  • 盖亚公布迄今为止最详细的银河系地图,完成其任务的天空扫描阶段 2025-01-16
  • 帕克的制药公司发射“ Parkers FMD”疫苗,以应对全球脚和口疾病威胁 2025-04-09
  • 如果您踏上了一个天然气巨星,您会陷入其核心吗? 2024-04-18
  • 光合作用发生在什么细胞器中?最重要的事实解释 2024-11-25
  • 新研究表明,现代人类来自两个祖先人口。 2025-03-18
  • 纽约发生罕见案例,蝙蝠粪便用于种植大麻导致两人死亡 2024-12-16
  • 研究人员帮助发现来自遥远黑洞的罕见伽马射线耀斑 2024-12-14
  • Sai Krishna Gunda的IEEE屡获殊荣的AI研究正在改变软件的可靠性 2025-03-26

上升趨勢

  • 唐納德·特朗普(Donald Trump)在半導體上收緊絞索...對美國經濟的冒險賭注 2025-04-18
  • 高速公路上的150 km/h在AI幫助下,這是合理的嗎? 2025-04-18
  • 它以30i/s的速度拍攝8K,135分鐘的自主權:Insta360 X4售罄,並將比賽投入了比賽。 2025-04-18
  • 個性化您的三星星係以前從未有過:最終在Google Play上的終極工具 2025-04-18
  • 發行人:有必要盡快撤回您的錢嗎?我們將真實脫離了錯誤 2025-04-18
  • 全球變暖慢慢污染了世界飲食的支柱之一 2025-04-18
  • 這不是iPad,但性能很瘋狂,價格便宜2倍 2025-04-18
  • 有了這個項目,MG希望以不到20,000歐元的價格出售電動汽車 2025-04-18
  • 昆士蘭州洪水中的bilbies“會很好” 2025-04-17
  • Vega OS:亞馬遜想用Android切斷電線 2025-04-18

最近發布

  • 如何在 iPhone 上使用 Google 助理 2024-04-17
  • 使用 NordVPN WireGuard 作为 UniFi VPN 客户端 2024-09-10
  • Acer Ferrari 1200-804G32Mn 对比 Lenovo ThinkPad X13s Gen 1 2024-12-12
  • 新的邮箱安全/阻塞发送者列表诊断365 2025-02-11
  • 如何修復“無法修改分區圖” macOS 2023-07-13
  • 这种水母可以击沉船只(而且确实如此) 2024-12-29
  • 如何在电脑上玩旧版 Game Boy Advance 游戏 2024-05-31
  • 如何安装您自己的 UniFi 云控制器 2023-07-04
  • 如何修复 iPhone 相机黑屏问题 2025-01-01
  • 9个虚拟LAN游戏的最佳Hamachi替代品(2025) 2025-03-02

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜