尽管生成式人工智能看起来很棒,但哈佛大学、麻省理工学院、芝加哥大学和康奈尔大学的研究人员得出的结论是,法学硕士并不像我们想象的那么可靠。即使像任天堂这样的大公司它及其游戏开发。
尽管有了巨大的增长,这些人工智能系统在不可预测的现实条件下仍然不一致且不准确。
为什么 GenAI 模型尚不完全可靠
尽管法学硕士在生成文本、编写代码和执行许多应用程序方面表现出色,但当任务或环境发生变化时,法学硕士就会失败。这是一个缺点,让人质疑这些模型在现实应用中的可信度,其中适应性和可靠性最为重要,有趣的工程报告。
最近,据透露,GenAI 模型在面对动态任务时无法对其处理的数据进行内部“理解”。
检查真实场景中的人工智能性能
在一项实验中,研究人员尝试过以确定一个非常受欢迎的法学硕士在为整个纽约市提供指导方面的表现如何。人工智能模型在正常情况下提供了几乎完美的指导,并且表面上看起来非常有能力。然而,当研究人员引入障碍和弯路时,模型的准确性直线下降。
无法适应新的街道布局;相反,它甚至无法正确导航,并暴露出其对城市地理的“理解”存在严重缺陷。
这意味着虽然法学硕士可能“学习”现实世界,但他们并不能像人类或其他复杂系统那样创建强大、灵活的知识结构。
法学硕士世界模型的结构性弱点
,例如流行的 GenAI 模型 GPT-4,是基于一种称为 Transformer 的 AI 架构形式构建的。这些变压器在巨大的语言数据集上进行训练,这些数据集可以预测单词或序列,以便给出类似人类的响应。
然而,研究人员已经确定,仅仅因为这些模型非常擅长预测,并不意味着它们真的了解它们所描述的世界。
一个例子是,变压器模型可以非常有效地在 Connect 4 棋盘游戏中做出有效的动作,但仍然无法理解游戏实际上应该如何工作。
为了回答这个问题,作者提出了两个新指标来检查此类人工智能模型是否能够学习连贯的“世界模型”——使它们能够在不同场景中正常工作的结构化知识。他们将这些指标应用于两项任务:在纽约市的街道上行走和玩黑白棋棋盘游戏。
随机模型优于预测人工智能
有趣的是,研究人员发现,做出随机决策的 Transformer 模型通常会比预测精度更高的 Transformer 模型产生更准确的世界模型。这本身表明,仅仅为了预测序列而训练的人工智能模型可能并没有学会理解它们的工作。
当研究人员仅关闭纽约市地图上 1% 的街道时,AI 模型的准确率从接近 100% 下降至仅为 67%,显示出深层次的适应性失败。
在黑白棋游戏的任务中,一个模型成功地创建了一个在黑白棋走法背景下起作用的连贯的“世界模型”,但没有一个模型真正成功地形成了纽约市导航的健全模型。
对未来人工智能发展的影响
这些结果表明,当前的法学硕士建设和评估方法不足以开发可靠的、
“通常,我们看到这些模型做了令人印象深刻的事情,并认为他们一定了解这个世界的一些东西。我希望我们能够让人们相信这是一个需要仔细思考的问题,我们不必依赖自己的直觉来回答这个问题,”一位研究人员说道,但他们强调,如果想要构建真正理解其部署环境的模型,就需要开发不能降低到预测准确性的新方法。
科学家们希望将他们的新指标应用于科学和现实世界的问题,以找到使法学硕士更具适应性和可靠性的方法。
专注于人工智能工程中开发的最终见解可以更好地构建用于现实世界应用的系统,同时为人工智能的改进奠定更坚实的基础。