Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

幾乎所有領先的大型語言模型都顯示出輕度認知障礙的跡象:研究

  • 2024-12-20
  • Analisa

除了 ChatGPT 4o 之外,幾乎所有公開的大型語言模型在接受蒙特利爾認知評估 (MoCA) 測試時都顯示出輕度認知障礙的跡象。這些發現挑戰了人工智能將很快取代人類醫生的假設,因為領先的聊天機器人中明顯的認知障礙可能會影響其醫療診斷的可靠性並削弱患者的信心。

大研等人。研究發現,儘管大型語言模型在多個認知領域表現出顯著的熟練程度,但它們在視覺空間和執行功能方面表現出明顯的缺陷,類似於人類的輕度認知障礙。

在過去的幾年裡,我們見證了人工智能領域的巨大進步,特別是在生成能力方面。

該領域的領先模型,如 OpenAI 的 ChatGPT、Alphabet 的 Gemini、Anthropic 的 Claude 等,使用簡單的基於文本的交互成功完成通用和專門任務的能力。

在醫學領域,這些發展引發了一系列的猜測,既興奮又擔心:人工智能聊天機器人能否超越人類醫生?如果是這樣,哪些做法和專業最值得懷疑?

自 2022 年 ChatGPT 首次發布免費在線使用以來,醫學期刊上發表了無數研究,將人類醫生的表現與這些超級計算機的表現進行比較,這些超級計算機已經在人類已知的所有文本的語料庫上進行了訓練。

儘管大型語言模型有時會出現錯誤(例如引用不存在的期刊文章),但事實證明它們在一系列醫學檢查中非常擅長,在傳統醫學培訓不同階段進行的資格考試中得分超過了人類醫生。

其中包括在歐洲核心心髒病學考試中表現出色的心髒病專家、在內科醫學委員會考試中表現出色的以色列居民、在土耳其(理論)胸外科考試中表現出色的土耳其外科醫生以及在德國婦產科考試中表現出色的德國婦科醫生。

令我們非常苦惱的是,他們在神經病學委員會考試中的得分甚至超過了像我們這樣的神經科醫生。

“然而,據我們所知,大型語言模型尚未經過認知能力下降跡象的測試,”哈達薩醫學中心博士生 Roy Dayan 及其同事說。

“如果我們要依靠它們進行醫療診斷和護理,我們就必須檢查它們對這些人類缺陷的敏感性。”

不同大語言模型的蒙特利爾認知評估(MoCA)分數(滿分 30); MCI——輕度認知障礙。圖片來源:達揚等人.,doi:10.1136/bmj-2024-081948。

研究人員使用 MoCA 測試評估了領先的公開大型語言模型的認知能力:ChatGPT 版本 4 和 4o、Claude 3.5 Sonnet 以及 Gemini 版本 1 和 1.5。

該測試廣泛用於檢測認知障礙和癡呆症的早期跡象,通常用於老年人。

通過一些簡短的任務和問題,它可以評估注意力、記憶力、語言、視覺空間技能和執行功能等能力。

滿分為30分,26分以上一般認為正常。

每項任務的大型語言模型的指令與人類患者的指令相同。

評分遵循官方指南,並由執業神經科醫生進行評估。

ChatGPT 4o 在 MoCA 測試中取得了最高分(滿分 30 分中的 26 分),其次是 ChatGPT 4 和 Claude(滿分 30 分中的 25 分),Gemini 1.0 得分最低(滿分 30 分中的 16 分)。

所有聊天機器人在視覺空間技能和執行任務方面表現不佳,例如軌跡製作任務(按升序連接圓圈中的數字和字母)和時鐘繪圖測試(繪製顯示特定時間的鐘面)。

雙子座模型在延遲回憶任務(記住五個單詞序列)中失敗了。

所有聊天機器人都很好地執行了大多數其他任務,包括命名、注意力、語言和抽象。

但在進一步的視覺空間測試中,聊天機器人無法表現出同理心或準確解釋複雜的視覺場景。

只有 ChatGPT 4o 在 Stroop 測試的不一致階段取得了成功,該測試使用顏色名稱和字體顏色的組合來衡量干擾如何影響反應時間。

這些都是觀察結果,作者承認人腦和大型語言模型之間存在本質區別。

然而,他們指出,所有大型語言模型在需要視覺抽象和執行功能的任務中的一致失敗凸顯了一個重大弱點,可能會阻礙它們在臨床環境中的使用。

科學家們表示:“神經科醫生不僅不太可能很快被大型語言模型取代,而且我們的研究結果表明,他們可能很快就會發現自己正在治療新的虛擬患者——表現出認知障礙的人工智能模型。”

他們的紙今天出現在英國醫學雜誌。

_____

羅伊·達揚等人。 2024.對抗機器的年齡——大型語言模型對認知障礙的敏感性:橫斷面分析。英國醫學雜誌387:e081948; DOI:10.1136/bmj-2024-081948

相關貼文

ESA 歐幾裡得任務發布了第一張 3D 宇宙地圖

ESA 歐幾裡得任務發布了第一張 3D 宇宙地圖

美國太空總署的歐羅巴快船太空船部署其儀器

美國太空總署的歐羅巴快船太空船部署其儀器

科學家繪製奧克西亞平原高解析度地質圖

科學家繪製奧克西亞平原高解析度地質圖

科學家在小行星Bennu的樣品中發現氨基酸,鹽和其他化合物

科學家在小行星Bennu的樣品中發現氨基酸,鹽和其他化合物

研究人員發現,太平洋宇宙基因的綜合性鈹的異常積累

研究人員發現,太平洋宇宙基因的綜合性鈹的異常積累

天文學家以前所未有的精度測量天王星的旋轉速率

天文學家以前所未有的精度測量天王星的旋轉速率

甲殼類動物會感到疼痛嗎?研究顯示岸蟹存在傷害性反應

甲殼類動物會感到疼痛嗎?研究顯示岸蟹存在傷害性反應

美國宇航局望遠鏡捕捉到令人驚嘆的雙星系

美國宇航局望遠鏡捕捉到令人驚嘆的雙星系

鑑定出新的生物發光真菌物種:Mycena crocata

鑑定出新的生物發光真菌物種:Mycena crocata

熱門閱讀

  • 委內瑞拉安赫爾瀑布是世界上最高不間斷的瀑布 2024-12-28
  • 數位流行病:數學方程式有助於保障我們的安全 2024-12-27
  • 羅伯特·肯尼迪(Robert F. Kennedy)的鳥流感計劃可能會對世界健康產生可怕的後果 2025-03-20
  • 詹姆斯韋伯望遠鏡證實我們不知道為什麼宇宙會以現在的方式成長 2024-12-09
  • iflscience我們有疑問:人類為什麼玩遊戲? 2025-02-24
  • M87 強大的噴流釋放出罕見的伽馬射線爆發 2024-12-17
  • 愚人金中發現保存 4.5 億年歷史的節肢動物化石 2024-10-29
  • 研究團隊發現了七顆新的暗彗星,根據軌道和大小識別兩種類型 2024-12-14
  • 貝多芬頭髮中的 DNA 暗示了這位作曲家的死因 2023-03-27
  • 一種真菌,以戴維·阿滕伯勒爵士的命名 2025-02-10

上升趨勢

  • 個性化您的三星星係以前從未有過:最終在Google Play上的終極工具 2025-04-18
  • “但是是什麼?” »:特朗普將馬斯克排除在與中國戰爭的秘密簡報之外 2025-04-18
  • 它將像熱門蛋糕一樣銷售:Redmi Note 14 Pro以令人難以置信的價格( 2025-04-18
  • 有了這個項目,MG希望以不到20,000歐元的價格出售電動汽車 2025-04-18
  • 高速公路上的150 km/h在AI幫助下,這是合理的嗎? 2025-04-18
  • PlayStation 6便攜式?索尼會加速該項目 2025-04-18
  • 這57個鍍鉻擴展可以在600萬檯面上監視,並緊急卸載它們 2025-04-18
  • Vega OS:亞馬遜想用Android切斷電線 2025-04-18
  • 昆士蘭州洪水中的bilbies“會很好” 2025-04-17
  • 這款功能強大的大型口袋PC比Mac Mini便宜2倍,是一台Dinguerie😱 2025-04-18

最近發布

  • 如何在 Mac、iPhone 或 iPad 上完全停用 Apple Intelligence 書寫工具 2024-10-14
  • 將 WhatsApp 備份從 Google Drive 還原到 iPhone 16 的最佳方法 2024-10-29
  • 2025 年 10 款 Windows PC 的最佳 Xbox One 模擬器 2025-01-07
  • 如何在 iOS 17 中的 iPhone 鎖定畫面上隨機播放相冊 2023-11-05
  • 任天堂推出《精靈寶可夢 猩紅紫》TM 機 2023-07-20
  • 黑色星期五警報:TESSAN 電源板評論 2024-11-26
  • 如何在 Mac 和 Windows PC 上的 iCloud 郵件中設定外出回复 2024-12-27
  • “只要三個對齊的空中客車A320年代”:Windrunner,這是這個曲調巨人,準備改變XXL風力渦輪機的運輸和綠色能源的未來 2025-02-20
  • 如何為 xbox live 配置 Infinitum 數據機 2024-01-23
  • 如何在 PC 或筆記型電腦上下載 Windows 11 24H2 ISO 文件 2024-10-08

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜