隨著醫療診斷越來越多地使用人工智能 (AI),一項新研究引起了人們對其長期一致性的擔憂。該研究於 12 月 20 日發布,表明大型語言模型 (LLM) 和基於人工智能的聊天機器人可能會遭受,與人類相似。
這一發現削弱了人類醫生將很快被人工智能取代的想法,並識別了醫療診斷中可能存在的威脅。
人工智能使醫療診斷更快
人工智能通過快速分析病史、X 射線和其他數據集,在異常現像被人眼察覺之前檢測到異常,從而徹底改變了醫療保健。
這些進步顯著提高了診斷速度和準確性。然而,最近的一項研究表明,人工智能驅動的聊天機器人,包括 OpenAI 的 ChatGPT、Anthropic 的 Sonnet 和 Alphabet 的 Gemini,可能會隨著時間的推移而失去有效性。生活科學。
測試人工智能的認知能力
為了確定人工智能係統是否患有認知能力下降,研究人員利用蒙特利爾認知評估(MoCA)測試。該測試通常被神經科醫生用來評估人類的認知能力,量化以下領域的能力:
- 注意力和記憶力
- 語言與抽象
- 空間技能和執行功能
該測試涉及諸如反復從 100 中減去 7、記住閱讀列表中的項目以及在鐘面上標記給定時間等活動。對於人類來說,30 中的 26 代表正常的認知狀態,低於該值可能表明認知缺陷。
人工智能聊天機器人如何評分
結果英國醫學雜誌研究呈現出顯著的趨勢。 ChatGPT-4 的得分最高,為 26 分(滿分 30 分),達到了人類正常認知功能的水平。 Gemini 1.0 的成功率要低得多,只有 16 分,表明舊版本的 LLM 認知功能惡化。
雖然人工智能在命名、注意力和語言測試中表現最好,但在空間和執行功能測試中表現不佳,尤其是延遲回憶和抽象思維。
人工智能真的會出現認知衰退嗎?
雖然結果表明舊人工智能模型的性能下降,但科學家警告說,這些發現只是觀察性的。人工智能處理數據的方式本質上與人腦不同,因此兩者不能輕易進行比較。該研究仍然表明,人工智能係統可能存在缺陷,可能會阻止它們在醫療診斷中充分發揮作用。
主要問題之一是人工智能在視覺抽象和執行功能任務方面表現不佳,而這兩個領域對於健全的醫療診斷至關重要。如果人工智能聊天機器人無法可靠地解碼複雜的視覺信息,那麼它們在臨床環境中的應用可能會受到破壞。
人工智能對醫療保健的影響
這些結果對人工智能在醫學領域的未來具有明顯的影響。雖然人工智能是一種極其強大的工具,但在重要的診斷功能中完全依賴它之前,需要克服它的局限性。一些要點是:
人工智能不應該取代人類醫生,而應該幫助他們。人工智能可以快速掃描大量數據,但需要人工干預才能正確解釋。
定期更新和再培訓是必要的。由於舊的人工智能模型效率較低,更新法學碩士對於確保准確性非常重要。
人工智能可能需要“神經檢查”。人工智能本身接受認知測試的幽默想法為定期檢查以保證持續的可靠性打開了大門。
人工智能用戶的現實檢驗
儘管人工智能在醫學領域取得了長足的進步,但這項研究提醒我們,技術並不完美。人工智能可能遭受“認知衰退”的建議清楚地表明它需要人類的微調和監督。









