Openai的Chatgpt几乎可以通过美国医疗许可考试

Openai的Chatgpt几乎可以通过美国医疗许可考试 - 新研究发现

2023-02-10

一项新研究发现Openai的chatgpt在得分约60％后，几乎可以通过美国医疗许可考试（USMLE）。

研究人员声称，AI工具提供了频繁见解的连贯响应，如A新闻稿。

Chatgpt的USMLE表现

Chatgpt是相对较新的，但是它已经在巡回演出，其中一些声称这是技术的未来。使AI工具如此受欢迎的原因在于，它的能力通过其大语言模型（LLM）来准确预测单词序列来产生类似人类的写作。

由蒂芙尼功夫（Tiffany Kung）和维克多·顿（Victor Tseng）领导的研究团队通过三个测试（步骤1、2CK和3）评估了Chatgpt在USMLE上的表现，这些测试对于在美国获得医疗许可证的结构非常且必要。

医学生带USMLE来评估他们对医疗学科，生物化学，生物伦理学等的理解。

在删除了基于图像的问题之后，作者评估了2022年6月USMLE版本的376个公共问题中的350个AI工具。

CHATGPT在三个测试中得分范围为52.4％至75％。这几乎是通过率，因为每年的阈值约为60％。

根据研究团队的说法，Chatgpt的所有反应中表现出94.6％的一致性，而88.9％的一致性包含至少一个中央洞察力或其他新颖，原创和临床有效的东西。

更有趣的是，Chatgpt优于PubMedGpt，这是一种仅在生物医学领域中进行文学训练的竞争对手模型，在较早的USMLE风格问题的数据集中，得分为50.8％。

尽管相对较小的输入尺寸限制了分析的深度和广度，但作者指出，他们的发现表明，Chatgpt如何有可能改善临床实践和医学教育。

他们还列举了AnsibleHealth临床医生使用Chatgpt，以使患者更简单地术语。

根据研究人员的说法，在没有人类强化的情况下通过这项具有挑战性的专家考试是临床AI开发的重要一步。

功夫还指出，Chatgpt在研究中的作用不仅仅是研究主题，因为它帮助他们撰写了手稿。他们像同事一样对待AI工具，并不时要求其输入。

但是，专家警告说，该研究的结果并不表明该工具与人类知识相提并论。

“这并不是遥不可及的表明，ChatGpt与人类具有任何可比的知识，因为该测试可能仅对那些已经拥有MD并做过居住的人可以很好地预测性能，这是针对非常有预先选择的人口的。GPT不会成为其中的一部分，” Nello Cristiani，在巴斯大学的人工智能教授中说，”科学媒体中心。

但是克里斯蒂安尼尼（Cristianini）指出，这种方法可以帮助科学家开发更好地管理大量文献的方法，从而大大加快了研究过程。

该研究的结果发表在PLOS数字健康。