Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

語言模型的巨大局限性:研究人員表示,為什么生成式人工智能仍有很長的路要走

  • 2024-11-05
  • Elinore

儘管生成式人工智能看起來很棒,但哈佛大學、麻省理工學院、芝加哥大學和康奈爾大學的研究人員得出的結論是,法學碩士並不像我們想像的那麼可靠。即使像任天堂這樣的大公司它及其遊戲開發。

儘管有了巨大的增長,這些人工智能係統在不可預測的現實條件下仍然不一致且不准確。

為什麼 GenAI 模型尚不完全可靠

伊戈爾·奧米拉耶夫/Unsplash

儘管法學碩士在生成文本、編寫代碼和執行許多應用程序方面表現出色,但當任務或環境發生變化時,法學碩士就會失敗。這是一個缺點,讓人質疑這些模型在現實應用中的可信度,其中適應性和可靠性最為重要,有趣的工程報告。

最近,據透露,GenAI 模型在面對動態任務時無法對其處理的數據進行內部“理解”。

檢查真實場景中的人工智能性能

在一項實驗中,研究人員嘗試過以確定一個非常受歡迎的法學碩士在為整個紐約市提供指導方面的表現如何。人工智能模型在正常情況下提供了幾乎完美的指導,並且表面上看起來非常有能力。然而,當研究人員引入障礙和彎路時,模型的準確性直線下降。

無法適應新的街道佈局;相反,它甚至無法正確導航,並暴露出其對城市地理的“理解”存在嚴重缺陷。

這意味著雖然法學碩士可能“學習”現實世界,但他們並不能像人類或其他復雜系統那樣創建強大、靈活的知識結構。

法學碩士世界模型的結構性弱點

,例如流行的 GenAI 模型 GPT-4,是基於一種稱為 Transformer 的 AI 架構形式構建的。這些變壓器在巨大的語言數據集上進行訓練,這些數據集可以預測單詞或序列,以便給出類似人類的響應。

然而,研究人員已經確定,僅僅因為這些模型非常擅長預測,並不意味著它們真的了解它們所描述的世界。

一個例子是,變壓器模型可以非常有效地在 Connect 4 棋盤遊戲中做出有效的動作,但仍然無法理解遊戲實際上應該如何工作。

為了回答這個問題,作者提出了兩個新指標來檢查此類人工智能模型是否能夠學習連貫的“世界模型”——使它們能夠在不同場景中正常工作的結構化知識。他們將這些指標應用於兩項任務:在紐約市的街道上行走和玩黑白棋棋盤遊戲。

隨機模型優於預測人工智能

有趣的是,研究人員發現,做出隨機決策的 Transformer 模型通常會比預測精度更高的 Transformer 模型產生更準確的世界模型。這本身表明,僅僅為了預測序列而訓練的人工智能模型可能並沒有學會理解它們的工作。

當研究人員僅關閉紐約市地圖上 1% 的街道時,AI 模型的準確率從接近 100% 下降至僅為 67%,顯示出深層次的適應性失敗。

在黑白棋遊戲的任務中,一個模型成功地創建了一個在黑白棋走法背景下起作用的連貫的“世界模型”,但沒有一個模型真正成功地形成了紐約市導航的健全模型。

對未來人工智能發展的影響

這些結果表明,當前的法學碩士建設和評估方法不足以開發可靠的、

一位研究人員表示:“我們經常看到這些模型做出了令人印象深刻的事情,並認為它們一定了解了這個世界的一些東西。我希望我們能夠說服人們,這是一個需要仔細思考的問題,我們不必依靠自己的直覺來回答它。”但他們強調,如果人們想構建真正理解其部署環境的模型,就需要開發不能降低預測準確性的新方法。

科學家們希望將他們的新指標應用於科學和現實世界的問題,以找到使法學碩士更具適應性和可靠性的方法。

專注於人工智能工程中開發的最終見解可以更好地構建用於現實世界應用的系統,同時為人工智能的改進奠定更堅實的基礎。

相關貼文

福特著眼於印尼進行電動車擴張:戰略性進軍鎳生產核心?

福特著眼於印尼進行電動車擴張:戰略性進軍鎳生產核心?

微軟AI召回終於來了,截圖你的生活,實現更聰明的搜索

微軟AI召回終於來了,截圖你的生活,實現更聰明的搜索

NASA Ingenuity 直升機在火星上墜毀的真相現已揭曉

NASA Ingenuity 直升機在火星上墜毀的真相現已揭曉

您可以編輯 Bluesky 帖子,但可以透過此應用程式使用

您可以編輯 Bluesky 帖子,但可以透過此應用程式使用

2024 年最適合女性玩家的遊戲椅,提供時尚、舒適和支撐

2024 年最適合女性玩家的遊戲椅,提供時尚、舒適和支撐

美國太空總署帕克太陽探測器將於今年聖誕節接近「有史以來最接近」的太陽

美國太空總署帕克太陽探測器將於今年聖誕節接近「有史以來最接近」的太陽

川普的關稅計畫可能會提高遊戲設備和電子產品的價格:這對遊戲玩家意味著什麼

川普的關稅計畫可能會提高遊戲設備和電子產品的價格:這對遊戲玩家意味著什麼

Meta Ray-Ban 智慧眼鏡獲得高級功能

Meta Ray-Ban 智慧眼鏡獲得高級功能

Tiktok Amber警報正在彈出“為您”頁面,以幫助找到失踪的孩子

Tiktok Amber警報正在彈出“為您”頁面,以幫助找到失踪的孩子

熱門閱讀

  • 梅賽德斯EQC 400電動測試:純電動車中的梅賽德斯 2019-09-24
  • 提示:新的 Google 搜尋復活節彩蛋可讓用戶玩魷魚遊戲 2025-01-03
  • 如何在Outlook中報告網絡釣魚電子郵件 2025-02-17
  • 10 種最佳修復方法 Windows 11 睡不醒 2023-07-18
  • 如何修復 Windows 上的網路發現已關閉錯誤 2025-01-12
  • 適用於 Windows 11 的遊戲 2025-03-30
  • 2023 年最佳 ChatGPT 替代品 2024-10-15
  • 2025 年 6 款最佳 Android PS2 模擬器 2025-01-16
  • iPhone 14 Pro 或 Pro Max 哪種顏色最適合您? 2024-10-16
  • Facebook、Instagram 和 WhatsApp 的伺服器在全球範圍內崩潰 2024-06-10

上升趨勢

  • 中國康科德“ C949”被揭示:它是簽名的,是空中客車和波音的競爭對手 2025-04-18
  • 唐納德·特朗普(Donald Trump)在半導體上收緊絞索...對美國經濟的冒險賭注 2025-04-18
  • 它以30i/s的速度拍攝8K,135分鐘的自主權:Insta360 X4售罄,並將比賽投入了比賽。 2025-04-18
  • 外星人生活的最有力的證據尚未發現124光年 2025-04-17
  • 有了這個項目,MG希望以不到20,000歐元的價格出售電動汽車 2025-04-18
  • 地球水的起源可能不像我們想像的那麼複雜 2025-04-17
  • PlayStation 6便攜式?索尼會加速該項目 2025-04-18
  • Google失去了針對其廣告帝國的審判 2025-04-18
  • Android 16:Google糾正了鏡頭,最後放回了這個基本的捷徑 2025-04-18
  • 在加拿大,神秘的三趾足跡揭示了新的尾甲龍 2025-04-17

最近發布

  • 12 輛巴士改裝成有輪子的精美小房子 2025-02-23
  • 考古學家稱,史瓦濟蘭的獅子洞是世界上最古老的赭石礦 2024-11-06
  • 人類在西非使用赭石已有 35,000 年歷史 2025-01-17
  • 12 輛巴士改裝成有輪子的精美小房子 2025-02-01
  • CeraVe 是零殘忍、純素且可持續的嗎? 2024-11-13
  • CeraVe 是零殘忍、純素且可持續的嗎? 2024-11-20
  • 500年後「失落」的蘇格蘭樂譜被發掘 2025-01-08
  • 大海的放緩:南極冰的損失如何重塑氣候 2025-03-02
  • ID@Borders and Future of Travel Countergy 2025 2024-12-18
  • 喝了酒你的心撲通撲通跳嗎?你可能有一顆“度假心” 2024-12-13

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜