AI可以遭受認知能力下降嗎？研究表明聊天機器人隨著時間的流逝而失去準確性

2025-02-17

隨著醫學診斷越來越多地使用人工智能（AI），一項新的研究引起了人們對其長期一致性的擔憂。該研究於12月20日發布，表明大型語言模型（LLMS）和基於AI的聊天機器人可能會遭受，類似於人類。

這一發現削弱了這樣一種觀念，即人類醫生將很快被AI取代，並確定醫療診斷中可能的威脅。

AI使醫療診斷更快

布雷特·喬丹（Brett Jordan）/Unsplash

AI通過迅速分析病史，X射線和其他數據集來徹底改變醫療保健，以檢測異常情況，然後才能顯而易見。

這些進步顯著提高了診斷速度和準確性。但是，最近的一項研究表明，包括Openai的Chatgpt，Anthropic的十四行詩和Alphabet的雙子座在內的AI驅動聊天機器人可能會隨著時間的流逝而失去效力。現場科學。

為了確定AI系統是否遭受認知能力下降，研究人員利用了蒙特利爾認知評估（MOCA）測試。該測試通常由神經科醫生用於評估人類的認知能力，量化包括：

該測試涉及諸如從100中反复減去7個，記住讀取列表中的項目，並在時鐘面上標記給定時間的活動。對於人類而言，30個中有26個代表正常的認知狀況，而少於這可能表明認知缺陷。

結果BMJ研究表現出了非凡的趨勢。 Chatgpt-4在30分之26中的得分最高，達到了正常認知功能的人類水平。 Gemini 1.0的成功率要少得多，得分僅為16，表明較舊版本的LLM的認知功能惡化。

AI在命名，注意力和語言測試方面表現最好，但在空間和執行功能測試方面的表現較差，尤其是延遲的回憶和抽象思維。

雖然結果表明較舊的AI模型的性能下降，但科學家警告說，發現是觀察性的。 AI如何處理數據本質上與人腦不同，因此不容易比較兩者。該研究仍然表明，AI系統中可能存在缺陷，可以阻止它們在醫學診斷中充分發揮作用。

主要問題之一是，AI在視覺抽象和執行功能任務方面表現不佳 - 兩個對於合理的醫學診斷至關重要的領域。如果AI聊天機器人無法可靠地解碼複雜的視覺信息，則可能會破壞其在臨床環境中的應用。

這些結果對醫學中AI的未來具有明顯的影響。儘管AI是一種非常強大的工具，但在重要的診斷功能中完全依靠它的局限性需要克服。一些要點是：

AI不應替代人類醫生，而應幫助他們。人工智能可以快速掃描大量數據，但是正確解釋需要人干預。

定期更新和再培訓是必要的。由於較舊的AI模型效率較低，因此更新LLMS對於確保准確性很重要。

AI可能需要“神經檢查”。對AI本身進行認知測試的幽默想法為定期檢查打開了大門，以確保持續的可靠性。

儘管AI在醫學方面已經走了很長一段路，但這項研究提醒我們技術並不完美。 AI可能會遭受“認知下降”的建議表明，它需要對人類進行微調和監督。