Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

语言模型的巨大局限性:研究人员表示,为什么生成式人工智能仍有很长的路要走

  • 2024-11-05
  • Elinore

尽管生成式人工智能看起来很棒,但哈佛大学、麻省理工学院、芝加哥大学和康奈尔大学的研究人员得出的结论是,法学硕士并不像我们想象的那么可靠。即使像任天堂这样的大公司它及其游戏开发。

尽管有了巨大的增长,这些人工智能系统在不可预测的现实条件下仍然不一致且不准确。

为什么 GenAI 模型尚不完全可靠

伊戈尔·奥米拉耶夫/Unsplash

尽管法学硕士在生成文本、编写代码和执行许多应用程序方面表现出色,但当任务或环境发生变化时,法学硕士就会失败。这是一个缺点,让人质疑这些模型在现实应用中的可信度,其中适应性和可靠性最为重要,有趣的工程报告。

最近,据透露,GenAI 模型在面对动态任务时无法对其处理的数据进行内部“理解”。

检查真实场景中的人工智能性能

在一项实验中,研究人员尝试过以确定一个非常受欢迎的法学硕士在为整个纽约市提供指导方面的表现如何。人工智能模型在正常情况下提供了几乎完美的指导,并且表面上看起来非常有能力。然而,当研究人员引入障碍和弯路时,模型的准确性直线下降。

无法适应新的街道布局;相反,它甚至无法正确导航,并暴露出其对城市地理的“理解”存在严重缺陷。

这意味着虽然法学硕士可能“学习”现实世界,但他们并不能像人类或其他复杂系统那样创建强大、灵活的知识结构。

法学硕士世界模型的结构性弱点

,例如流行的 GenAI 模型 GPT-4,是基于一种称为 Transformer 的 AI 架构形式构建的。这些变压器在巨大的语言数据集上进行训练,这些数据集可以预测单词或序列,以便给出类似人类的响应。

然而,研究人员已经确定,仅仅因为这些模型非常擅长预测,并不意味着它们真的了解它们所描述的世界。

一个例子是,变压器模型可以非常有效地在 Connect 4 棋盘游戏中做出有效的动作,但仍然无法理解游戏实际上应该如何工作。

为了回答这个问题,作者提出了两个新指标来检查此类人工智能模型是否能够学习连贯的“世界模型”——使它们能够在不同场景中正常工作的结构化知识。他们将这些指标应用于两项任务:在纽约市的街道上行走和玩黑白棋棋盘游戏。

随机模型优于预测人工智能

有趣的是,研究人员发现,做出随机决策的 Transformer 模型通常会比预测精度更高的 Transformer 模型产生更准确的世界模型。这本身表明,仅仅为了预测序列而训练的人工智能模型可能并没有学会理解它们的工作。

当研究人员仅关闭纽约市地图上 1% 的街道时,AI 模型的准确率从接近 100% 下降至仅为 67%,显示出深层次的适应性失败。

在黑白棋游戏的任务中,一个模型成功地创建了一个在黑白棋走法背景下起作用的连贯的“世界模型”,但没有一个模型真正成功地形成了纽约市导航的健全模型。

对未来人工智能发展的影响

这些结果表明,当前的法学硕士建设和评估方法不足以开发可靠的、

一位研究人员表示:“我们经常看到这些模型做出了令人印象深刻的事情,并认为它们一定了解了这个世界的一些东西。我希望我们能够说服人们,这是一个需要仔细思考的问题,我们不必依靠自己的直觉来回答它。”但他们强调,如果人们想构建真正理解其部署环境的模型,就需要开发不能降低预测准确性的新方法。

科学家们希望将他们的新指标应用于科学和现实世界的问题,以找到使法学硕士更具适应性和可靠性的方法。

专注于人工智能工程中开发的最终见解可以更好地构建用于现实世界应用的系统,同时为人工智能的改进奠定更坚实的基础。

相關貼文

埃隆·马斯克(Elon Musk)的X定居Twitter禁止与特朗普总统的诉讼,以1000万美元

埃隆·马斯克(Elon Musk)的X定居Twitter禁止与特朗普总统的诉讼,以1000万美元

网络犯罪使英国企业损失 550 亿美元:企业是否未能保护自己?

网络犯罪使英国企业损失 550 亿美元:企业是否未能保护自己?

Instagram DM 预定消息现已推出

Instagram DM 预定消息现已推出

Inc 勒索黑客入侵 NHS 医院,声称窃取了 2018 年至 2024 年患者数据

Inc 勒索黑客入侵 NHS 医院,声称窃取了 2018 年至 2024 年患者数据

OpenAI的GPT-5带有O3推理模型的GPT-5将免费提供给所有CHATGPT用户

OpenAI的GPT-5带有O3推理模型的GPT-5将免费提供给所有CHATGPT用户

三星 Galaxy S25 泄露图片揭示了有助于美观的最小设计变化

三星 Galaxy S25 泄露图片揭示了有助于美观的最小设计变化

日本将世界上第一颗木制卫星送入太空以对抗太空垃圾

日本将世界上第一颗木制卫星送入太空以对抗太空垃圾

沃尔玛以 2.3 亿美元完成对 Vizio 的收购,据报道更多广告将出现在电视上

沃尔玛以 2.3 亿美元完成对 Vizio 的收购,据报道更多广告将出现在电视上

2024 年黑色星期五最佳优惠:使用 EMEET S800 和配套小工具解锁无与伦比的价值

2024 年黑色星期五最佳优惠:使用 EMEET S800 和配套小工具解锁无与伦比的价值

熱門閱讀

  • Claude Sonnet 3.5 与 ChatGPT-4o:哪个更好? 2024-06-28
  • 2023 年最佳 ChatGPT 替代品 2024-10-23
  • PowerShell Do While 循环说明 2024-09-08
  • 确定您是否在 Reddit 上被禁止的 3 种方法 2024-05-31
  • Nexus 6P 出厂图片现已提供 [下载] 2024-09-18
  • 修复:关闭或最小化工具提示粘在Windows 10/11的桌面上 2025-04-15
  • 為什麼《Apex 英雄》會在 2023 年關閉? 最後日期、退款和遊玩地點 2023-07-14
  • DeepSeek限制了网络攻击后的新注册 2025-01-28
  • 如何在Raspberry Pi上安装家庭助理 2025-01-30
  • 使用 PowerShell 从 CSV 文件更新 AD 用户 2022-07-01

上升趨勢

  • 高速公路上的150 km/h在AI幫助下,這是合理的嗎? 2025-04-18
  • 發現一個新血統:為什麼它可以挽救生命 2025-04-18
  • 01net早晨:最好的“魔術橡皮”,奧迪Q6 e-tron的超級力量,與chatgpt保持友善很昂貴 2025-04-18
  • 認識Zhúlóng,這是銀河系的“雙胞胎”,搖晃我們的宇宙時間表 2025-04-17
  • 有了這個項目,MG希望以不到20,000歐元的價格出售電動汽車 2025-04-18
  • 騙局,深擊,加密貨幣:Google在2024年封鎖了51億個廣告 2025-04-18
  • “但是是什麼?” »:特朗普將馬斯克排除在與中國戰爭的秘密簡報之外 2025-04-18
  • 個性化您的三星星係以前從未有過:最終在Google Play上的終極工具 2025-04-18
  • iPhone增加了生產,三星取出香檳 2025-04-18
  • 在加拿大,神秘的三趾足跡揭示了新的尾甲龍 2025-04-17

最近發布

  • 工作太昂贵了:Z一代被迫拒绝工作,因为旅行成本 2025-03-06
  • 这辆行驶 60,000 英里的康明斯动力 2006 Ram 2500 售价为 24,200 美元 2024-12-07
  • Apple 的新保修政策对您的设备维修有何影响? 2024-06-10
  • 这个卧铺的凯迪拉克刚获得了杰伊·莱诺(Jay Leno)的批准印章 2025-03-19
  • 本田可能会从日产合并中获得首款全尺寸 SUV 和皮卡 2025-01-10
  • 这就是为什么两名独立宣言签署者入狱的原因 2021-07-06
  • 您的宠物是右撇子还是左撇子?以下是如何找出答案......它可以揭示您隐藏的性格特征 2025-01-06
  • “胆量与大胆的巨大罢工”:这三个新的可再生能源革命项目将改变一切 2025-04-09
  • 鸡尾酒这个词的由来是什么?奇怪的答案可能会让你感觉醉了 2024-03-07
  • 用于准确估计植物基因组大小的流式细胞术指南 2024-09-28

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜