ChatGPT 可通过美国医师执照考试的部分内容

“ChatGPT 现在已经轻松进入及格范围。”

一组研究人员已经测试，一个人工智能（AI）聊天机器人，使用美国医师执照考试（USMLE）的问题来测试其临床推理能力。

研究团队在预印本服务器 medRxiv 上发布了他们的研究结果，并写道，他们之所以选择用美国医师执照考试 (USMLE) 的问题来测试生成语言人工智能，是因为这是一个“高风险、全面的三步标准化测试程序，涵盖了医生知识库中的所有主题，涵盖基础科学、临床推理、医疗管理和生物伦理学”。

该语言模型是通过大量互联网文本进行训练的，并未使用研究人员使用的测试版本进行训练；在研究之前也没有接受过任何补充医学培训，研究期间它回答了一些开放式和多项选择题。

研究团队在研究中写道：“在目前的研究中，ChatGPT 在所有检查中的准确率均超过 50%，在大多数分析中准确率超过 60%。”

“USMLE 的通过门槛每年都会有所不同，但大约为 60%。因此，ChatGPT 现在已轻松进入通过范围。作为第一个达到这一基准的实验，我们认为这是一个令人惊讶且令人印象深刻的结果。”

该团队写道，可以通过更多的提示和与模型的互动来改进。当人工智能表现不佳，给出的答案不太一致时，他们认为部分原因是缺少人工智能没有遇到的信息。

然而，他们认为 OpenAI 机器人比完全基于医学文本训练的模型更具优势，因为它对临床背景有更多的概述。

研究团队在讨论中写道：“矛盾的是，ChatGPT 的表现优于 PubMedGPT（准确率为 50.8%，未发表的数据），后者是一种具有类似神经结构的对应模型（语言学习模型），但专门针对生物医学领域文献进行训练。”

“我们推测，特定领域的训练可能在 PubMedGPT 模型中造成了更大的矛盾，因为它吸收了正在进行的学术讨论中的真实世界文本，而这些文本在语言上往往没有定论、相互矛盾或高度保守或不置可否。”

该团队写道，人工智能可能很快就会成为考虑到行业进步的速度，或许可以通过改善风险评估或为临床决策提供帮助和支持来实现。

该研究发表于预印本服务器 medRxiv。尚未经过同行评审。