大规模总杨百翰研究人员领导的一项研究揭示了chatgpt在临床决策中。
研究表明,大型语言模型(LLM)AI Chatbot在整体临床决策中达到了约72%的精度,包括从产生潜在诊断到最终诊断和护理管理选择的任务。
该研究包括各种医学专业,并在初级保健和紧急情况下进行。

可与新生医学专业人员相提并论
首席作者马里兰州马克·史克斯(Marc Succi)表示,Chatgpt的表现与刚毕业的医疗专业人员相当,强调了LLMS在医学领域中充当有效工具的潜力。
“不存在真正的基准,但是我们估计这种表现处于刚刚从医学院毕业的人(例如实习生或居民)的水平。这告诉我们,LLM通常有可能成为医学实践的增强工具,并以令人印象深刻的准确性来支持临床决策,” Succi''在一份声明中说。
尽管人工智能取得了迅速的进步,但LLM可以在多大程度上促进全面的临床护理。
这项研究试图调查Chatgpt在整个患者相遇中为临床决策提供建议和做出临床决策的能力,包括诊断工作,临床管理和最终诊断。
该研究涉及将标准化临床方案的细分市场展示给CHATGPT,并模拟现实世界中的患者互动。 Chatgpt的任务是根据初始患者信息生成差异诊断,然后通过连续的数据输入进行管理决策并最终诊断。
研究人员发现,Chatgpt的准确性平均约为72%,在最终诊断为77%时,其表现最高。但是,它在做出鉴别诊断(60%)和临床管理决策(68%)方面的准确性较低。
值得注意的是,该研究表明,Chatgpt的反应并未证明性别偏见,并且在初级和紧急护理方案中其表现是一致的。
Succi强调,Chatgpt在鉴别诊断方面苦苦挣扎,这是医学的重要方面,需要在面对有限的患者信息时确定潜在的行动方案。它指出了医生在患者护理的早期阶段的优势,在患者护理的早期阶段产生了可能的诊断列表是关键的。
在临床实践中
该研究的作者承认,在将Chatgpt之类的工具集成到临床实践中之前,进一步的基准研究和监管指导至关重要。该团队的未来工作旨在探索AI工具是否可以在资源受限的医疗机构中增强患者护理。
综合的学术卫生系统和创新企业大众杨百翰(Mass General Brigham)积极从事严格的研究,以负责任地将AI纳入护理,劳动力支持和行政流程中。
合着者亚当·兰德曼(Adam Landman),医学博士,MIS,MIS,首席信息官兼Mass General Brigham Digital副总裁MHS强调,此类研究在评估AI解决方案的准确性,可靠性,安全性和公平性在整合到临床护理中的准确性,可靠性,安全性和公平性。
兰德曼在一份声明中说:“大规模杨百翰将LLMS的巨大希望有助于改善护理服务和临床医生的经验。”研究的发现是出版在《医学互联网研究杂志》中。
