一项新研究发现Openai的chatgpt在得分约60%后,几乎可以通过美国医疗许可考试(USMLE)。
研究人员声称,AI工具提供了频繁见解的连贯响应,如A新闻稿。

Chatgpt的USMLE表现
Chatgpt是相对较新的,但是它已经在巡回演出,其中一些声称这是技术的未来。使AI工具如此受欢迎的原因在于,它的能力通过其大语言模型(LLM)来准确预测单词序列来产生类似人类的写作。
由蒂芙尼功夫(Tiffany Kung)和维克多·顿(Victor Tseng)领导的研究团队通过三个测试(步骤1、2CK和3)评估了Chatgpt在USMLE上的表现,这些测试对于在美国获得医疗许可证的结构非常且必要。
医学生带USMLE来评估他们对医疗学科,生物化学,生物伦理学等的理解。
在删除了基于图像的问题之后,作者评估了2022年6月USMLE版本的376个公共问题中的350个AI工具。
CHATGPT在三个测试中得分范围为52.4%至75%。这几乎是通过率,因为每年的阈值约为60%。
根据研究团队的说法,Chatgpt的所有反应中表现出94.6%的一致性,而88.9%的一致性包含至少一个中央洞察力或其他新颖,原创和临床有效的东西。
更有趣的是,Chatgpt优于PubMedGpt,这是一种仅在生物医学领域中进行文学训练的竞争对手模型,在较早的USMLE风格问题的数据集中,得分为50.8%。
Chatgpt在医疗领域的潜力
尽管相对较小的输入尺寸限制了分析的深度和广度,但作者指出,他们的发现表明,Chatgpt如何有可能改善临床实践和医学教育。
他们还列举了AnsibleHealth临床医生使用Chatgpt,以使患者更简单地术语。
根据研究人员的说法,在没有人类强化的情况下通过这项具有挑战性的专家考试是临床AI开发的重要一步。
功夫还指出,Chatgpt在研究中的作用不仅仅是研究主题,因为它帮助他们撰写了手稿。他们像同事一样对待AI工具,并不时要求其输入。
但是,专家警告说,该研究的结果并不表明该工具与人类知识相提并论。
“这并不是遥不可及的表明,ChatGpt与人类具有任何可比的知识,因为该测试可能仅对那些已经拥有MD并做过居住的人可以很好地预测性能,这是针对非常有预先选择的人口的。GPT不会成为其中的一部分,” Nello Cristiani,在巴斯大学的人工智能教授中说,”科学媒体中心。
但是克里斯蒂安尼尼(Cristianini)指出,这种方法可以帮助科学家开发更好地管理大量文献的方法,从而大大加快了研究过程。
该研究的结果发表在PLOS数字健康。
