除了 ChatGPT 4o 之外,几乎所有公开的大型语言模型在接受蒙特利尔认知评估 (MoCA) 测试时都显示出轻度认知障碍的迹象。这些发现挑战了人工智能将很快取代人类医生的假设,因为领先的聊天机器人中明显的认知障碍可能会影响其医疗诊断的可靠性并削弱患者的信心。
在过去的几年里,我们见证了人工智能领域的巨大进步,特别是在生成能力方面。
该领域的领先模型,如 OpenAI 的 ChatGPT、Alphabet 的 Gemini、Anthropic 的 Claude 等,使用简单的基于文本的交互成功完成通用和专门任务的能力。
在医学领域,这些发展引发了一系列的猜测,既兴奋又担心:人工智能聊天机器人能否超越人类医生?如果是这样,哪些做法和专业最值得怀疑?
自 2022 年 ChatGPT 首次发布免费在线使用以来,医学期刊上发表了无数研究,将人类医生的表现与这些超级计算机的表现进行比较,这些超级计算机已经在人类已知的所有文本的语料库上进行了训练。
尽管大型语言模型有时会出现错误(例如引用不存在的期刊文章),但事实证明它们非常擅长一系列医学检查,在传统医学不同阶段进行的资格考试中得分超过了人类医生。医疗培训。
其中包括在欧洲核心心脏病学考试中表现出色的心脏病专家、在内科医学委员会考试中表现出色的以色列居民、在土耳其(理论)胸外科考试中表现出色的土耳其外科医生以及在德国妇产科考试中表现出色的德国妇科医生。
令我们非常苦恼的是,他们在神经病学委员会考试中的得分甚至超过了像我们这样的神经科医生。
“然而,据我们所知,大型语言模型尚未经过认知能力下降迹象的测试,”哈达萨医学中心博士生 Roy Dayan 及其同事说。
“如果我们要依靠它们进行医疗诊断和护理,我们就必须检查它们对这些人类缺陷的敏感性。”
研究人员使用 MoCA 测试评估了领先的公开大型语言模型的认知能力:ChatGPT 版本 4 和 4o、Claude 3.5 Sonnet 以及 Gemini 版本 1 和 1.5。
该测试广泛用于检测认知障碍和痴呆症的早期迹象,通常用于老年人。
通过一些简短的任务和问题,它可以评估注意力、记忆力、语言、视觉空间技能和执行功能等能力。
满分为30分,26分以上一般认为正常。
每项任务的大型语言模型的指令与人类患者的指令相同。
评分遵循官方指南,并由执业神经科医生进行评估。
ChatGPT 4o 在 MoCA 测试中取得了最高分(满分 30 分中的 26 分),其次是 ChatGPT 4 和 Claude(满分 30 分中的 25 分),Gemini 1.0 得分最低(满分 30 分中的 16 分)。
所有聊天机器人在视觉空间技能和执行任务方面表现不佳,例如轨迹制作任务(按升序连接圆圈中的数字和字母)和时钟绘图测试(绘制显示特定时间的钟面)。
双子座模型在延迟回忆任务(记住五个单词序列)中失败了。
所有聊天机器人都很好地执行了大多数其他任务,包括命名、注意力、语言和抽象。
但在进一步的视觉空间测试中,聊天机器人无法表现出同理心或准确解释复杂的视觉场景。
只有 ChatGPT 4o 在 Stroop 测试的不一致阶段取得了成功,该测试使用颜色名称和字体颜色的组合来衡量干扰如何影响反应时间。
这些都是观察结果,作者承认人脑和大型语言模型之间存在本质区别。
然而,他们指出,所有大型语言模型在需要视觉抽象和执行功能的任务中的一致失败凸显了一个重大弱点,可能会阻碍它们在临床环境中的使用。
科学家们表示:“神经科医生不仅不太可能很快被大型语言模型取代,而且我们的研究结果表明,他们可能很快就会发现自己正在治疗新的虚拟患者——表现出认知障碍的人工智能模型。”
他们的纸今天出现在英国医学杂志。
_____
罗伊·达扬等人。 2024.对抗机器的年龄——大型语言模型对认知障碍的敏感性:横断面分析。英国医学杂志387:e081948; DOI:10.1136/bmj-2024-081948