随着医学诊断越来越多地使用人工智能(AI),一项新的研究引起了人们对其长期一致性的担忧。该研究于12月20日发布,表明大型语言模型(LLMS)和基于AI的聊天机器人可能会遭受,类似于人类。
这一发现削弱了这样一种观念,即人类医生将很快被AI取代,并确定医疗诊断中可能的威胁。
AI使医疗诊断更快
AI通过迅速分析病史,X射线和其他数据集来彻底改变医疗保健,以检测异常情况,然后才能显而易见。
这些进步显着提高了诊断速度和准确性。但是,最近的一项研究表明,包括Openai的Chatgpt,Anthropic的十四行诗和Alphabet的双子座在内的AI驱动聊天机器人可能会随着时间的流逝而失去效力。现场科学。
测试AI的认知能力
为了确定AI系统是否遭受认知能力下降,研究人员利用了蒙特利尔认知评估(MOCA)测试。该测试通常由神经科医生用于评估人类的认知能力,量化包括:
- 注意力和记忆
- 语言和抽象
- 空间技能和执行功能
该测试涉及诸如从100中反复减去7个,记住读取列表中的项目,并在时钟面上标记给定时间的活动。对于人类而言,30个中有26个代表正常的认知状况,而少于这可能表明认知缺陷。
AI聊天机器人如何得分
结果BMJ研究表现出了非凡的趋势。 Chatgpt-4在30分之26中的得分最高,达到了正常认知功能的人类水平。 Gemini 1.0的成功率要少得多,得分仅为16,表明较旧版本的LLM的认知功能恶化。
AI在命名,注意力和语言测试方面表现最好,但在空间和执行功能测试方面的表现较差,尤其是延迟的回忆和抽象思维。
AI真的遭受认知能力下降吗?
虽然结果表明较旧的AI模型的性能下降,但科学家警告说,发现是观察性的。 AI如何处理数据本质上与人脑不同,因此不容易比较两者。该研究仍然表明,AI系统中可能存在缺陷,可以阻止它们在医学诊断中充分发挥作用。
主要问题之一是,AI在视觉抽象和执行功能任务方面表现不佳 - 两个对于合理的医学诊断至关重要的领域。如果AI聊天机器人无法可靠地解码复杂的视觉信息,则可能会破坏其在临床环境中的应用。
对医疗保健中AI的影响
这些结果对医学中AI的未来具有明显的影响。尽管AI是一种非常强大的工具,但在重要的诊断功能中完全依靠它的局限性需要克服。一些要点是:
AI不应替代人类医生,而应帮助他们。人工智能可以快速扫描大量数据,但是正确解释需要人干预。
定期更新和再培训是必要的。由于较旧的AI模型效率较低,因此更新LLMS对于确保准确性很重要。
AI可能需要“神经检查”。对AI本身进行认知测试的幽默想法为定期检查打开了大门,以确保持续的可靠性。
AI用户的现实检查
尽管AI在医学方面已经走了很长一段路,但这项研究提醒我们技术并不完美。 AI可能会遭受“认知下降”的建议表明,它需要对人类进行微调和监督。