研究表明，較舊的AI模型顯示出認知能力下降的跡象。

2025-02-16

（圖片來源：3DSCULPTOR/GETTY圖像）

人們越來越依賴（AI）用於醫學診斷，因為這些工具在病史，X射線和其他數據集中在對肉眼顯而易見之前會發現異常和警告標誌的速度有效。但是一項新的研究於2024年12月20日在BMJ人們擔心AI技術等大型語言模型（LLM）和聊天機器人（例如人）表現出隨著年齡的增長而惡化的認知能力的跡象。

該研究的作者在論文中寫道：“這些發現挑戰了人工智能很快取代人類醫生的假設，因為在領先的聊天機器人中明顯的認知障礙可能會影響他們在醫學診斷和破壞患者信心的可靠性。”

科學家使用The Openai的Chatppt，Anthropic的十四行詩和Alphabet的雙子座進行了公開可用的LLM驅動聊天機器人蒙特利爾認知評估（MOCA）測試 - 神經病學家用來測試注意力，記憶，語言，空間技能和執行心理功能的一系列任務。

在阿爾茨海默氏病或癡呆等疾病中，MOCA最常用於評估或測試認知障礙的發作。賦予了受試者的任務，例如在時鐘面上繪製特定時間，從100開始，然後反复減去7個，記住從口語列表中記住盡可能多的單詞，依此類推。在人類中，30個中有26人被認為是傳球得分（即受試者沒有認知障礙。

有關的：

儘管對於大多數使用的LLM而言，命名，注意力，語言和抽像等測試的某些方面似乎很容易，但它們在視覺/空間技能和執行任務方面的表現都很差，而在延遲召回等領域，其中一些人的表現卻比其他領域的表現差。

至關重要的是，雖然最近版本的Chatgpt（版本4）得分最高（30分之一），但較舊的Gemini 1.0 LLM僅得分16，導致結論較舊的LLMS顯示出認知能力下降的跡象。

該研究的作者指出，他們的發現僅是觀察性的 - AI和人類思維工作方式之間的關鍵差異意味著實驗不能直接比較。但是他們警告說，這可能會指出他們所說的“重要的弱點”，這可能會使AI在臨床醫學領域的部署中進行剎車。具體來說，他們認為不使用AI在需要視覺抽象和執行功能的任務中。

它還提出了人類神經科醫生在一個全新市場上的一些有趣的概念，這本身就表現出認知障礙的跡象。