对话式人工智能机器人 ChatGPT 正在风靡一时,它承诺改变我们生成书面文本的方式,搜索网络,并教育我们自己。
ChatGPT 最新成就?即将通过美国医师执照考试(美国医师执照考试)。
我们在这里谈论的是一项以其难度而闻名的考试,通常需要大约 300 到 400 个小时的准备才能完成,涵盖从基础科学概念到生物伦理学的所有内容。
USMLE 实际上是三合一考试,ChatGPT 能够回答其问题的能力表明,这些人工智能机器人有一天可能对医疗培训甚至某些类型的诊断有用。
研究人员在他们的报告中写道:“ChatGPT 在没有任何专门培训或强化的情况下,在所有三项考试中的表现均达到或接近通过门槛。”发表论文。 “此外,ChatGPT 的解释表现出高度的一致性和洞察力。”
ChatGPT 是一种被称为大语言模型或法学硕士。这些法学硕士专门针对书面答复,通过大量的示例文本和一些巧妙的算法,他们能够预测哪些单词应该在句子中组合在一起,就像手机预测文本功能的老大哥一样。
这是一种简化,但你明白了:ChatGPT 实际上并不“知道”任何东西,但通过分析大量在线材料,它可以针对任何主题构建听起来合理的句子。
不过,“听起来合理”是关键。根据各种措辞的概率,人工智能可能看起来异常聪明,或者得出最荒谬的结论。
Ansible Health 初创公司的研究人员使用 USMLE 的示例问题对其进行了测试,并检查了 Google 上没有提供答案,因此他们知道 ChatGPT 将根据其训练数据生成新的响应。
在测试中,ChatGPT 在三项考试中的得分在 52.4% 到 75% 之间(及格分数通常在 60% 左右)。在 88.9% 的回复中,它至少产生了一个重要的见解——被研究人员描述为“新的、非显而易见的、临床上有效的”。
研究作者在一份新闻声明中表示:“在这项众所周知的困难专家考试中获得及格分数,并且在没有任何人工强化的情况下实现这一目标,标志着临床人工智能成熟的一个显着里程碑。”
ChatGPT 的答案也被证明具有令人印象深刻的一致性,甚至能够提供每个答案背后的推理。它还击败了专门针对医学文献进行训练的机器人 PubMedGPT 50.3% 的准确率。
值得记住的是,ChatGPT 接受培训的信息将包含不准确之处:如果您询问机器人本身,它会承认需要做更多的工作来提高LLM的可靠性。在可预见的未来的任何时候,它都不会取代医疗专业人员。
然而,解析在线知识的潜力显然是巨大的,特别是随着这些人工智能机器人在未来几年不断变得更好。它们不会取代医学界的人类,而是可以成为人类的重要助手。
“这些结果表明,大型语言模型可能有潜力协助医学教育,甚至可能协助临床决策,”写给研究人员。
该研究发表于PLOS 数字健康。