随着医疗诊断越来越多地使用人工智能 (AI),一项新研究引起了人们对其长期一致性的担忧。该研究于 12 月 20 日发布,表明大型语言模型 (LLM) 和基于人工智能的聊天机器人可能会遭受,与人类相似。
这一发现削弱了人类医生将很快被人工智能取代的想法,并识别了医疗诊断中可能存在的威胁。
人工智能使医疗诊断更快
人工智能通过快速分析病史、X 射线和其他数据集,在异常现象被人眼察觉之前检测到异常,从而彻底改变了医疗保健。
这些进步显着提高了诊断速度和准确性。然而,最近的一项研究表明,人工智能驱动的聊天机器人,包括 OpenAI 的 ChatGPT、Anthropic 的 Sonnet 和 Alphabet 的 Gemini,可能会随着时间的推移而失去有效性。生活科学。
测试人工智能的认知能力
为了确定人工智能系统是否患有认知能力下降,研究人员利用蒙特利尔认知评估(MoCA)测试。该测试通常被神经科医生用来评估人类的认知能力,量化以下领域的能力:
- 注意力和记忆力
- 语言与抽象
- 空间技能和执行功能
该测试涉及诸如反复从 100 中减去 7、记住阅读列表中的项目以及在钟面上标记给定时间等活动。对于人类来说,30 中的 26 代表正常的认知状态,低于该值可能表明认知缺陷。
人工智能聊天机器人如何评分
结果英国医学杂志研究呈现出显着的趋势。 ChatGPT-4 的得分最高,为 26 分(满分 30 分),达到了人类正常认知功能的水平。 Gemini 1.0 的成功率要低得多,只有 16 分,表明旧版本的 LLM 认知功能恶化。
虽然人工智能在命名、注意力和语言测试中表现最好,但在空间和执行功能测试中表现不佳,尤其是延迟回忆和抽象思维。
人工智能真的会出现认知衰退吗?
虽然结果表明旧人工智能模型的性能下降,但科学家警告说,这些发现只是观察性的。人工智能处理数据的方式本质上与人脑不同,因此两者不能轻易进行比较。该研究仍然表明,人工智能系统可能存在缺陷,可能会阻止它们在医疗诊断中充分发挥作用。
主要问题之一是人工智能在视觉抽象和执行功能任务方面表现不佳,而这两个领域对于健全的医疗诊断至关重要。如果人工智能聊天机器人无法可靠地解码复杂的视觉信息,那么它们在临床环境中的应用可能会受到破坏。
人工智能对医疗保健的影响
这些结果对人工智能在医学领域的未来具有明显的影响。虽然人工智能是一种极其强大的工具,但在重要的诊断功能中完全依赖它之前,需要克服它的局限性。一些要点是:
人工智能不应该取代人类医生,而应该帮助他们。人工智能可以快速扫描大量数据,但需要人工干预才能正确解释。
定期更新和再培训是必要的。由于旧的人工智能模型效率较低,更新法学硕士对于确保准确性非常重要。
人工智能可能需要“神经检查”。人工智能本身接受认知测试的幽默想法为定期检查以保证持续的可靠性打开了大门。
人工智能用户的现实检验
尽管人工智能在医学领域取得了长足的进步,但这项研究提醒我们,技术并不完美。人工智能可能遭受“认知衰退”的建议清楚地表明它需要人类的微调和监督。









