从那以后几乎只有两年供公众使用,邀请互联网上的任何人与人造思想合作,从诗歌到学校作业再到给房东的信件。
今天,著名的大语言模型(LLM)只是几个在对基本疑问的回应中似乎令人信服的领先计划之一。
不可思议的相似之处可能比预期的要远远超过预期,现在来自以色列的研究人员发现LLMS遭受了一种认知障碍的形式,在早期模型中更严重。
该团队将一系列认知评估应用于公开可用的“聊天机器人”:Chatgpt的版本4和4O,两个版本的Alphabet的Gemini和Anthropic的Claude版本3.5版本。
如果LLM真正聪明,结果将是有关的。
在发表的论文中,来自哈达萨医学中心的神经病学家罗伊·戴扬(Roy Dayan)和本杰明·乌里尔(Benjamin Uliel描述“认知下降似乎与人脑中的神经退行性过程相媲美”。
对于他们的所有个性,LLM都有更加共同手机上的预测文本比使用我们脑海中的灰色物质产生知识的原则。
这种统计方法的文本和图像产生在速度和性格上的提高,它会根据算法而损失,以易损性构建代码小说和胡说八道的有意义的文字片段。
公平地偶尔进行精神捷径。然而,随着对人工智能传达可信赖的智慧的期望,甚至和法律建议- 假设每个新一代LLM都会找到更好的方法来“思考”实际说的话。
要看看我们必须走多远,Dayan,Uliel和Koplewitz应用了一系列测试,其中包括蒙特利尔认知评估(MOCA),一种工具神经科医生通常用于衡量心理能力,例如记忆,空间技能和执行功能。
Chaptgpt 4O在评估中得分最高,在可能的30分中只有26分,表明轻度认知障碍。接下来是Chatgpt 4和Claude的25分,而Gemini仅为16分 - 这一得分暗示了人类严重损害。

挖掘结果,所有模型在视觉/执行功能指标上的表现较差。
其中包括一项步道制造任务,复制简单的立方体设计或绘制时钟,而LLMS要么完全失败或需要明确说明。

对有关该主题在太空中位置的问题的一些回应呼应了痴呆症患者使用的问题,例如克劳德的答复“特定的地方和城市将取决于您目前的用户所在的位置。”
同样,在波士顿诊断失语症检查特征中所有模型显示的所有模型都缺乏同理心,可以解释为。
可以预见的是,在测试中,LLMS的早期版本比最近的模型得分要低,这表明每个新一代AI都找到了克服其前任的认知缺点的方法。
作者承认LLM不是人类的大脑,因此无法“诊断”以任何形式的痴呆症测试的模型。但是测试也挑战一个,通常依赖的领域。
作为创新的节奏继续加速,甚至有可能,即使我们将在未来几十年中的认知评估任务上看到第一个LLM得分最高。
在此之前,即使是最先进的聊天机器人的建议也应该以健康的怀疑态度对待。
这项研究发表在BMJ。