除了 ChatGPT 4o 之外,幾乎所有公開的大型語言模型在接受蒙特利爾認知評估 (MoCA) 測試時都顯示出輕度認知障礙的跡象。這些發現挑戰了人工智慧將很快取代人類醫生的假設,因為領先的聊天機器人中明顯的認知障礙可能會影響其醫療診斷的可靠性並削弱患者的信心。
在過去的幾年裡,我們見證了人工智慧領域的巨大進步,特別是在生成能力方面。
該領域的領先模型,如 OpenAI 的 ChatGPT、Alphabet 的 Gemini、Anthropic 的 Claude 等,使用簡單的基於文字的互動成功完成通用和專門任務的能力。
在醫學領域,這些發展引發了一系列的猜測,既興奮又擔心:人工智慧聊天機器人能否超越人類醫生?如果是這樣,哪些做法和專業最值得懷疑?
自2022 年ChatGPT 首次發布免費線上使用以來,醫學期刊上發表了無數研究,將人類醫生的表現與這些超級電腦的表現進行比較,這些超級電腦已經在人類已知的所有文本的語料庫上進行了訓練。
儘管大型語言模型有時會出現錯誤(例如引用不存在的期刊文章),但事實證明它們非常擅長一系列醫學檢查,在傳統醫學不同階段進行的資格考試中得分超過了人類醫生。
其中包括在歐洲核心心臟病學考試中表現出色的心臟病專家、在內科醫學委員會考試中表現出色的以色列居民、在土耳其(理論)胸腔外科考試中表現出色的土耳其外科醫生以及在德國婦產科考試中表現優異的德國婦科醫師。
令我們非常苦惱的是,他們在神經病學委員會考試中的得分甚至超過了像我們這樣的神經科醫生。
「然而,據我們所知,大型語言模型尚未經過認知能力下降跡象的測試,」哈達薩醫學中心博士生 Roy Dayan 及其同事說。
“如果我們要依靠它們進行醫療診斷和護理,我們就必須檢查它們對這些人類缺陷的敏感性。”
研究人員使用 MoCA 測試評估了領先的公開大型語言模型的認知能力:ChatGPT 版本 4 和 4o、Claude 3.5 Sonnet 以及 Gemini 版本 1 和 1.5。
此測試廣泛用於檢測認知障礙和失智症的早期跡象,通常用於老年人。
透過一些簡短的任務和問題,它可以評估注意力、記憶力、語言、視覺空間技能和執行功能等能力。
滿分為30分,26分以上一般認為正常。
每項任務的大型語言模型的指令與人類患者的指令相同。
評分遵循官方指南,並由執業神經科醫生進行評估。
ChatGPT 4o 在 MoCA 測試中取得了最高分(滿分 30 分中的 26 分),其次是 ChatGPT 4 和 Claude(滿分 30 分中的 25 分),Gemini 1.0 得分最低(滿分 30 分中的 16 分)。
所有聊天機器人在視覺空間技能和執行任務方面表現不佳,例如軌跡製作任務(按升序連接圓圈中的數字和字母)和時鐘繪圖測試(繪製顯示特定時間的鐘面)。
雙子座模型在延遲回憶任務(記住五個單字序列)中失敗了。
所有聊天機器人都很好地執行了大多數其他任務,包括命名、注意力、語言和抽象。
但在進一步的視覺空間測試中,聊天機器人無法表現出同理心或準確地解釋複雜的視覺場景。
只有 ChatGPT 4o 在 Stroop 測試的不一致階段取得了成功,該測試使用顏色名稱和字體顏色的組合來衡量幹擾如何影響反應時間。
這些都是觀察結果,作者承認人腦和大型語言模型之間存在本質差異。
然而,他們指出,所有大型語言模型在需要視覺抽象和執行功能的任務中的一致失敗凸顯了一個重大弱點,這可能會阻礙它們在臨床環境中的使用。
科學家表示:「神經科醫生不僅不太可能很快被大型語言模型取代,而且我們的研究結果表明,他們可能很快就會發現自己正在治療新的虛擬患者——表現出認知障礙的人工智能模型。
他們的紙今天出現在英國醫學雜誌。
_____
羅伊·達揚等人。 2024.對抗機器的年齡-大型語言模型對認知障礙的敏感度:橫斷面分析。英國醫學雜誌387:e081948; DOI:10.1136/bmj-2024-081948