人工智能算法正在内置在医疗保健的几乎所有方面。他们融入了,临床笔记,健康保险管理,甚至是电话和计算机应用程序以创建虚拟护士并转录医生患者对话。公司说这些工具将并减轻医生和其他卫生保健工作者的负担。但是,一些专家质疑这些工具是否正常工作,以及公司声称他们这样做。
在大量的文本数据上培训的大型语言模型或LLM等AI工具仅与他们的培训和测试一样好。但是,对医疗领域中LLM功能的公开评估是基于使用医学学生考试的评估,例如MCAT。实际上,评估卫生保健AI模型(特别是LLMS)的研究综述发现只有5%使用真实患者数据。此外,大多数研究通过询问有关医学知识的问题来评估LLM。很少有评估LLMS编写处方,总结对话或与患者进行对话的能力 - LLM在现实世界中所做的任务。
这当前的基准分散注意力,计算机科学家黛博拉·拉吉(Deborah Raji)及其同事在2月份辩论新英格兰医学杂志AI。测试无法衡量实际的临床能力;他们没有充分说明需要细微的决策的现实情况的复杂性。它们在测量的内容方面也不灵活,也无法评估不同类型的临床任务。而且由于测试是基于医师的知识,因此它们无法正确代表护士或其他医务人员的信息。
“人们对这些系统的许多期望和乐观态度都基于这些体检测试基准,”拉吉在加利福尼亚大学伯克利分校研究AI审计和评估的拉吉说。 “这种乐观情绪现在正在转化为部署,人们试图将这些系统融入现实世界并将其置于真实的患者身上。”她和她的同事认为,我们需要对LLM在响应复杂和多样化的临床任务时的表现进行评估。
科学新闻与Raji谈到了当前的医疗保健AI测试,对其进行的关注以及创建更好评估的解决方案。这次采访已被编辑,以进行长度和清晰度。
sn:为什么当前的基准测试不足?
拉吉:这些基准并不能指示人们渴望的应用类型,因此整个领域不应以它们的方式和所做的程度痴迷于它们。
这不是一个新问题,也不是针对医疗保健的。这是整个机器学习中存在的东西,我们将这些基准汇总在一起,我们希望它代表我们关心的这个特定领域的一般智能或一般能力。但是,我们只需要对我们围绕这些数据集提出的主张非常谨慎。
这些系统的表示距离远距离实际部署了它们的情况,我们就越难理解这些系统所具有的故障模式。这些系统远非完美。有时他们会失败在特定人群中,有时,因为它们歪曲了任务,因此不会以揭示部署某些失败的方式捕获任务的复杂性。这种基准偏见问题,我们可以根据不代表部署情况的信息进行选择,从而导致很多狂妄自大。
sn:如何为医疗保健AI模型创建更好的评估?
拉吉:一种策略是从实际的实际工作流程中采访域专家,并收集与模型的自然主义数据集,以查看人们投入的不同查询的类型或范围以及不同的输出。还有这个想法是,[合着者] Roxana Daneshjou在与“红色团队”的某些工作中所做的那样,积极地聚集了一群人来促使模型。这些都是不同的方法,可以更接近人们实际与系统互动的更现实的提示集。
我们正在尝试的另一件事是从实际医院获取信息作为使用数据,例如它们实际部署它的方式以及有关他们实际上如何整合系统的工作流程 - 以及匿名的患者信息或对这些模型的匿名输入,然后可以为未来的基准测试标准和评估实践提供信息。
从其他学科(例如心理学)中,有一些方法是关于如何在现实观察中进行评估以评估某些事情的方法。这里也是如此 - 我们目前的评估生态系统中有多少是基于人们正在观察的事物以及人们在这些系统的实际部署中所欣赏或挣扎的东西。
sn:模型测试应该如何专门化?
拉吉:针对问题回答和知识回忆的基准与基准有很大不同,以验证模型,以汇总医生的笔记或对上传数据进行询问和回答。从任务设计方面,这种细微差别就是我要实现的目标。并不是说每个人都应该拥有自己的个性化基准,而是我们共享的那项共同的任务比多选择测试需要更加扎根。因为即使对于真正的医生,这些多项选择的问题也不能表明其实际表现。
sn:需要哪些政策或框架来创建此类评估?
拉吉:这主要是呼吁研究人员投资于思考和构建基准,而是整个评估,这些评估更依赖于我们对这些系统的期望,一旦它们被部署。目前,评估是事后的想法。我们只是认为,可以对评估方法,基准设计的方法以及在这个领域的评估方法学的更多关注。
其次,我们可以在机构层面上要求更高的透明度,例如通过医院的AI库存,医院应分享它们用作临床实践一部分的不同AI产品的完整列表。在医院一级,这种做法确实可以帮助我们了解人们目前正在使用AI系统的方法。如果[医院和其他机构]发布了有关将这些AI系统整合到工作流中的信息,这也可以帮助我们考虑更好的评估。医院一级的事情将非常有帮助。
在供应商级别上,共享有关他们当前评估实践的信息(他们当前的基准依赖的内容)有助于我们找出他们当前正在做的事情与可能更现实或更扎根的东西之间的差距。
sn:您对使用这些模型的人有什么建议?
拉吉:作为一个领域,我们应该对我们关注的评估或我们(过分基于我们的绩效的评估)进行更深思熟虑。
选择最低的水果非常容易 - 体检只是那里最可用的医学检查。即使他们完全没有代表人们希望在部署时使用这些模型的事情,这就像一个简单的数据集可以编译,整理,上传,下载和运行。
但是,我会挑战该领域要变得更加周到,并更加关注真正构建我们希望模型的工作和我们对这些模型的期望的有效表示。