“ChatGPT 现在已经轻松进入及格范围。”
一组研究人员已经测试,一个人工智能(AI)聊天机器人,使用美国医师执照考试(USMLE)的问题来测试其临床推理能力。
研究团队在预印本服务器 medRxiv 上发布了他们的研究结果,并写道,他们之所以选择用美国医师执照考试 (USMLE) 的问题来测试生成语言人工智能,是因为这是一个“高风险、全面的三步标准化测试程序,涵盖了医生知识库中的所有主题,涵盖基础科学、临床推理、医疗管理和生物伦理学”。
该语言模型是通过大量互联网文本进行训练的,并未使用研究人员使用的测试版本进行训练;在研究之前也没有接受过任何补充医学培训,研究期间它回答了一些开放式和多项选择题。
研究团队在研究中写道:“在目前的研究中,ChatGPT 在所有检查中的准确率均超过 50%,在大多数分析中准确率超过 60%。”
“USMLE 的通过门槛每年都会有所不同,但大约为 60%。因此,ChatGPT 现在已轻松进入通过范围。作为第一个达到这一基准的实验,我们认为这是一个令人惊讶且令人印象深刻的结果。”
该团队写道,可以通过更多的提示和与模型的互动来改进。当人工智能表现不佳,给出的答案不太一致时,他们认为部分原因是缺少人工智能没有遇到的信息。
然而,他们认为 OpenAI 机器人比完全基于医学文本训练的模型更具优势,因为它对临床背景有更多的概述。
研究团队在讨论中写道:“矛盾的是,ChatGPT 的表现优于 PubMedGPT(准确率为 50.8%,未发表的数据),后者是一种具有类似神经结构的对应模型(语言学习模型),但专门针对生物医学领域文献进行训练。”
“我们推测,特定领域的训练可能在 PubMedGPT 模型中造成了更大的矛盾,因为它吸收了正在进行的学术讨论中的真实世界文本,而这些文本在语言上往往没有定论、相互矛盾或高度保守或不置可否。”
该团队写道,人工智能可能很快就会成为考虑到行业进步的速度,或许可以通过改善风险评估或为临床决策提供帮助和支持来实现。
该研究发表于预印本服务器 medRxiv。尚未经过同行评审。