隨著醫學診斷越來越多地使用人工智能(AI),一項新的研究引起了人們對其長期一致性的擔憂。該研究於12月20日發布,表明大型語言模型(LLMS)和基於AI的聊天機器人可能會遭受,類似於人類。
這一發現削弱了這樣一種觀念,即人類醫生將很快被AI取代,並確定醫療診斷中可能的威脅。
AI使醫療診斷更快
AI通過迅速分析病史,X射線和其他數據集來徹底改變醫療保健,以檢測異常情況,然後才能顯而易見。
這些進步顯著提高了診斷速度和準確性。但是,最近的一項研究表明,包括Openai的Chatgpt,Anthropic的十四行詩和Alphabet的雙子座在內的AI驅動聊天機器人可能會隨著時間的流逝而失去效力。現場科學。
測試AI的認知能力
為了確定AI系統是否遭受認知能力下降,研究人員利用了蒙特利爾認知評估(MOCA)測試。該測試通常由神經科醫生用於評估人類的認知能力,量化包括:
- 注意力和記憶
- 語言和抽象
- 空間技能和執行功能
該測試涉及諸如從100中反复減去7個,記住讀取列表中的項目,並在時鐘面上標記給定時間的活動。對於人類而言,30個中有26個代表正常的認知狀況,而少於這可能表明認知缺陷。
AI聊天機器人如何得分
結果BMJ研究表現出了非凡的趨勢。 Chatgpt-4在30分之26中的得分最高,達到了正常認知功能的人類水平。 Gemini 1.0的成功率要少得多,得分僅為16,表明較舊版本的LLM的認知功能惡化。
AI在命名,注意力和語言測試方面表現最好,但在空間和執行功能測試方面的表現較差,尤其是延遲的回憶和抽象思維。
AI真的遭受認知能力下降嗎?
雖然結果表明較舊的AI模型的性能下降,但科學家警告說,發現是觀察性的。 AI如何處理數據本質上與人腦不同,因此不容易比較兩者。該研究仍然表明,AI系統中可能存在缺陷,可以阻止它們在醫學診斷中充分發揮作用。
主要問題之一是,AI在視覺抽象和執行功能任務方面表現不佳 - 兩個對於合理的醫學診斷至關重要的領域。如果AI聊天機器人無法可靠地解碼複雜的視覺信息,則可能會破壞其在臨床環境中的應用。
對醫療保健中AI的影響
這些結果對醫學中AI的未來具有明顯的影響。儘管AI是一種非常強大的工具,但在重要的診斷功能中完全依靠它的局限性需要克服。一些要點是:
AI不應替代人類醫生,而應幫助他們。人工智能可以快速掃描大量數據,但是正確解釋需要人干預。
定期更新和再培訓是必要的。由於較舊的AI模型效率較低,因此更新LLMS對於確保准確性很重要。
AI可能需要“神經檢查”。對AI本身進行認知測試的幽默想法為定期檢查打開了大門,以確保持續的可靠性。
AI用戶的現實檢查
儘管AI在醫學方面已經走了很長一段路,但這項研究提醒我們技術並不完美。 AI可能會遭受“認知下降”的建議表明,它需要對人類進行微調和監督。