儘管生成式人工智慧看起來很棒,但哈佛大學、麻省理工學院、芝加哥大學和康乃爾大學的研究人員得出的結論是,法學碩士並不像我們想像的那麼可靠。即使像任天堂這樣的大公司它及其遊戲開發。
儘管有了巨大的成長,這些人工智慧系統在不可預測的現實條件下仍然不一致且不準確。
為什麼 GenAI 模型尚不完全可靠
儘管法學碩士在生成文本、編寫程式碼和執行許多應用程式方面表現出色,但當任務或環境發生變化時,法學碩士就會失敗。這是一個缺點,讓人質疑這些模型在現實應用中的可信度,其中適應性和可靠性最為重要,有趣的工程報告。
最近,據透露,GenAI 模型在面對動態任務時無法對其處理的資料進行內部「理解」。
檢查真實場景中的人工智慧效能
在一項實驗中,研究人員嘗試過以確定一個非常受歡迎的法學碩士在為整個紐約市提供指導方面的表現如何。人工智慧模型在正常情況下提供了幾乎完美的指導,並且表面上看起來非常有能力。然而,當研究人員引入障礙和彎路時,模型的準確性直線下降。
無法適應新的街道佈局;相反,它甚至無法正確導航,並暴露出其對城市地理的「理解」存在嚴重缺陷。
這意味著雖然法學碩士可能「學習」現實世界,但他們並不能像人類或其他複雜系統那樣創造強大、靈活的知識結構。
法學碩士世界模型的結構性弱點
,例如流行的 GenAI 模型 GPT-4,是基於一種稱為 Transformer 的 AI 架構形式構建的。這些變壓器在巨大的語言資料集上進行訓練,這些資料集可以預測單字或序列,以便給出類似人類的反應。
然而,研究人員已經確定,僅僅因為這些模型非常擅長預測,並不意味著它們真的了解它們所描述的世界。
一個例子是,變壓器模型可以非常有效地在 Connect 4 棋盤遊戲中做出有效的動作,但仍然無法理解遊戲實際上應該如何運作。
為了回答這個問題,作者提出了兩個新指標來檢查此類人工智慧模型是否能夠學習連貫的「世界模型」——使它們能夠在不同場景中正常工作的結構化知識。他們將這些指標應用於兩項任務:在紐約市的街道上行走和玩黑白棋盤遊戲。
隨機模型優於預測人工智慧
有趣的是,研究人員發現,做出隨機決策的 Transformer 模型通常會比預測精度更高的 Transformer 模型產生更準確的世界模型。這本身表明,僅僅為了預測序列而訓練的人工智慧模型可能並沒有學會理解它們的工作。
當研究人員僅關閉紐約市地圖上 1% 的街道時,AI 模型的準確率從接近 100% 下降至僅 67%,顯示出深層的適應性失敗。
在黑白棋遊戲的任務中,一個模型成功地創建了一個在黑白棋走法背景下起作用的連貫的“世界模型”,但沒有一個模型真正成功地形成了紐約市導航的健全模型。
對未來人工智慧發展的影響
這些結果表明,目前的法學碩士建設和評估方法不足以開發可靠的、
「通常,我們看到這些模型做了令人印象深刻的事情,並認為他們一定了解這個世界的一些東西。我希望我們能夠讓人們相信這是一個需要仔細思考的問題,我們不必依賴自己的直覺來回答這個問題,」一位研究人員說道,但他們強調,如果想要建立真正理解其部署環境的模型,就需要開發不能降低到預測準確性的新方法。
科學家希望將他們的新指標應用於科學和現實世界的問題,以找到使法學碩士更具適應性和可靠性的方法。
專注於人工智慧工程中開發的最終見解可以更好地建立用於現實世界應用的系統,同時為人工智慧的改進奠定更堅實的基礎。