Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

科學家警告說,大型語言模型不適合現實世界使用——即使是微小的變化也會導致他們的世界模型崩潰

  • 2024-11-16
  • Armanda
支持法學碩士的神經網絡可能並不像看起來那麼聰明。 (圖片來源:Yurchanka Siarhei/Shutterstock)

生成式(人工智能)系統也許能夠產生一些令人大開眼界的結果,但新的研究表明它們對世界和真實規則沒有連貫的理解。

在一項新研究麻省理工學院、哈佛大學和康奈爾大學的科學家發表在 arXiv 預印本數據庫上發現,大型語言模型 (LLM),例如或人擇的,無法生成準確代表現實世界的底層模型。

研究人員發現,當指令中添加意想不到的變化(例如繞道和封閉街道)時,法學碩士給出的指令的準確性會直線下降。在某些情況下,它導致徹底失敗。因此,人們擔心部署在現實世界中的人工智能係統(例如無人駕駛汽車)在遇到動態環境或任務時可能會出現故障。

有關的:

“一個希望是,因為法學碩士可以用語言完成所有這些令人驚奇的事情,也許我們也可以在科學的其他領域使用這些相同的工具。但如果我們想使用這些技術做出新的發現,法學碩士是否正在學習連貫的世界模型這一問題非常重要,”資深作者說阿什什·蘭巴坎麻省理工學院信息與決策系統實驗室 (LIDS) 的經濟學助理教授和首席研究員,陳述。

棘手的變形金剛

生成式人工智能的關鍵在於法學碩士並行學習大量數據和參數的能力。為了做到這一點,他們依靠變壓器型號,它們是處理數據並實現法學碩士自學方面的底層神經網絡集。這個過程創建了一個所謂的“世界模型”,經過訓練的法學碩士可以使用該模型來推斷答案並生成查詢和任務的輸出。

世界模型的一種理論上的用途是從城市中的出租車行程中獲取數據來生成地圖,而無需像當前導航工具所要求的那樣煞費苦心地繪製每條路線。但如果地圖不准確,路線偏差就會導致基於人工智能的導航表現不佳或失敗。

為了評估 Transformer LLM 在理解現實世界規則和環境方面的準確性和連貫性,研究人員使用一類稱為確定性有限自動化 (DFA) 的問題對其進行了測試。這些是一系列狀態的問題,例如游戲規則或到達目的地的路線中的交叉點。在本例中,研究人員使用了從棋盤遊戲《黑白棋》中提取的 DFA 以及紐約街道的導航。

為了使用 DFA 測試變壓器,研究人員研究了兩個指標。第一個是“序列確定”,它評估變壓器法學碩士是否形成了一個連貫的世界模型,如果它看到同一事物的兩種不同狀態:兩個奧賽羅棋盤或一張有道路封閉的城市地圖,而另一張沒有道路封閉。第二個指標是“序列壓縮”——一個序列(在本例中是用於生成輸出的數據點的有序列表),它應該表明具有連貫世界模型的法學碩士可以理解兩個相同的狀態(例如兩個完全相同的黑白棋盤)具有相同的可能步驟序列。

依賴法學碩士是有風險的生意

根據這些指標對兩類常見的法學碩士進行了測試。一個接受隨機生成的序列生成的數據的訓練,另一個接受以下戰略過程生成的數據的訓練。

科學家發現,接受隨機數據訓練的變形金剛形成了更準確的世界模型,這可能是由於法學碩士看到了更廣泛的可能步驟。主要作者Keyon Vafa哈佛大學的一位研究人員在一份聲明中解釋道:“在《黑白棋》中,如果你看到兩台隨機計算機而不是冠軍選手下棋,理論上你會看到全套可能的棋步,甚至是冠軍選手不會下的壞棋。”通過看到更多可能的舉措,即使它們很糟糕,法學碩士理論上可以更好地適應隨機變化。

然而,儘管生成了有效的奧賽羅棋步和準確的方向,但只有一個變壓器為奧賽羅生成了連貫的世界模型,並且兩種類型都沒有生成準確的紐約地圖。當研究人員引入諸如繞道之類的東西時,法學碩士使用的所有導航模型都失敗了。

Vafa 補充道:“令我驚訝的是,一旦我們添加了一條繞道,性能就下降得如此之快。如果我們只關閉 1% 的可能街道,準確率就會立即從近 100% 驟降至 67%。”

研究人員表示,這表明需要採用不同的方法來使用法學碩士來生成準確的世界模型。這些方法可能是什麼尚不清楚,但它確實凸顯了變壓器法學碩士在面對動態環境時的脆弱性。

“通常,我們看到這些模型做了令人印象深刻的事情,並認為它們一定了解世界的某些東西,”Rambachan 總結道。 “我希望我們能夠讓人們相信這是一個需要仔細思考的問題,我們不必依靠自己的直覺來回答它。”

相關貼文

章魚在改變顏色時燃燒的卡路里比你在 25 分鐘跑步中消耗的卡路里還要多

章魚在改變顏色時燃燒的卡路里比你在 25 分鐘跑步中消耗的卡路里還要多

美國第一個兒童感染禽流感-疾病管制中心稱感染源不明

美國第一個兒童感染禽流感-疾病管制中心稱感染源不明

中國創造了強大的間諜衛星,能夠從低軌道上查看面部細節

中國創造了強大的間諜衛星,能夠從低軌道上查看面部細節

Amazfit T-Rex 3智能手錶評論

Amazfit T-Rex 3智能手錶評論

Ofcas Off Antalctica拍攝了教學犢牛,以令人難以置信的新鏡頭狩獵

Ofcas Off Antalctica拍攝了教學犢牛,以令人難以置信的新鏡頭狩獵

大西洋洋流正在減弱嗎?一項新的研究發現否定,但其他專家不太確定。

大西洋洋流正在減弱嗎?一項新的研究發現否定,但其他專家不太確定。

考古學家在沙烏地阿拉伯綠洲中發現了 4000 年歷史的青銅時代定居點

考古學家在沙烏地阿拉伯綠洲中發現了 4000 年歷史的青銅時代定居點

戴森半價:亞馬遜旗艦空氣清淨機便宜300多美元

戴森半價:亞馬遜旗艦空氣清淨機便宜300多美元

觀看這種類似人類的機器人“從死裡崛起”,速度和穩定性

觀看這種類似人類的機器人“從死裡崛起”,速度和穩定性

熱門閱讀

  • 科學家發現地球內部深處的巨人斑點正在“自己不斷發展” 2025-03-11
  • 新的 DESI 觀測結果與廣義相對論的預測一致 2024-11-20
  • 創新的顯微鏡揭示了細胞中完整的3D分子取向 2025-02-22
  • 如何解決計算的人工智慧能源問題:一切都倒著運行 2024-12-29
  • 簡單的數學模型預測人類社會中觀察到的文化結構的發展 2025-01-23
  • 天文學家以前所未有的精度測量天王星的旋轉速率 2025-04-10
  • 如何透過 OpenAI 使用 ChatGPT:基本步驟教程 2022-12-22
  • 特拉維斯·巴克 (Travis Barker) 因胰臟炎住院治療,但它是什麼以及有什麼症狀? 2022-07-05
  • 韋伯在銀河系外首次探測到大量褐矮星候選者 2024-10-28
  • Witcher 4:發布日期設置為2026年以上,沒有計劃中的生成AI 2025-03-26

上升趨勢

  • 發現一個新血統:為什麼它可以挽救生命 2025-04-18
  • 這不是iPad,但性能很瘋狂,價格便宜2倍 2025-04-18
  • 個性化您的三星星係以前從未有過:最終在Google Play上的終極工具 2025-04-18
  • 中國康科德“ C949”被揭示:它是簽名的,是空中客車和波音的競爭對手 2025-04-18
  • 騙局,深擊,加密貨幣:Google在2024年封鎖了51億個廣告 2025-04-18
  • 這是Moing V,第一個折疊式閱讀器 2025-04-18
  • 地球水的起源可能不像我們想像的那麼複雜 2025-04-17
  • 它將像熱門蛋糕一樣銷售:Redmi Note 14 Pro以令人難以置信的價格( 2025-04-18
  • PlayStation 6便攜式?索尼會加速該項目 2025-04-18
  • 放開您的iPhone,這個單置13至 2025-04-18

最近發布

  • 如何修復 iOS 17 中 iPhone 上不顯示即時字幕的問題 2024-02-18
  • 下載 Opera 離線安裝程式(64 位元、32 位元) 2024-09-26
  • 修復:三角洲部隊鷹行動錯誤代碼 126 2024-10-26
  • 如何修復 Windows 11 上的「存取被拒絕,您無權存取此伺服器」錯誤 2024-11-22
  • iPhone 14 Pro 或 Pro Max 哪種顏色最適合您? 2024-10-30
  • 修復:按F5鍵打開“開始”菜單搜索,而不是刷新網頁 2025-02-11
  • Google Pixel手錶2和3獲取AI騙局檢測:現在您可以阻止手腕上的欺詐電話 2025-04-09
  • 這個“新” PlayStation與您的遊戲,存儲卡和控制器兼容的是什麼? 2025-01-28
  • 如何選擇 iPhone 上的所有照片:逐步指南 2024-05-10
  • 聯想 Legion Y90 將配備 22 GB RAM(18 個真實記憶體和 4 個虛擬記憶體) 2022-02-10

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜