哈佛,麻省理工学院,芝加哥大学和康奈尔大学的研究人员与生成性AI外观一样出色,得出结论认为LLM并不像我们相信的那样可靠。甚至像任天堂这样的大公司它的游戏开发。
尽管增长了巨大的增长,但这些AI系统在不可预测的现实情况下仍然不一致和不准确。
为什么Genai模型还没有完全可靠
尽管它们在生成文本,编写代码和执行许多应用程序时表现出色,但在任务或环境变化时,LLM会失败。这是一个缺点,使一个问题在现实世界应用中具有这些模型的可信度,在现实世界中,适应性和可靠性最重要,有趣的工程报告。
最近,据透露,Genai模型在面对动态任务时无法内部“理解”他们处理的数据。
检查现实情况的AI性能
在一个实验中,研究人员尝试为了确定一个非常受欢迎的LLM在整个纽约市提供指导方面的表现。 AI模型在正常条件下几乎提供了几乎完美的方向,并且在表面上似乎非常有能力。但是,当研究人员引入障碍和弯路时,该模型的准确性暴跌。
它无法适应新的街道布局。取而代之的是,它甚至无法正确导航,并且在对城市地理的“理解”中揭示了严重的缺陷。
这意味着,尽管LLM可能会“了解”现实世界,但它们并没有创建人类或其他复杂系统所具有的强大,灵活的知识结构。
LLMS世界模型中的结构弱点
诸如流行的Genai模型GPT-4之类的是基于称为变压器的AI体系结构的形式构建。这样的变压器是在巨大的语言数据集上进行培训的,这些数据集预测单词或序列以给出类似人类的响应。
但是,研究人员已经确定,仅仅因为这些模型可以擅长预测并不意味着他们真的知道他们所描述的世界。
一个例子是,变压器模型在连接4的棋盘游戏中进行有效的动作可能非常有效,但仍然不了解游戏实际上应该如何工作。
为了回答这一点,作者提出了两个新的指标,以检查这种AI模型是否可以学习连贯的“世界模型” - 结构化知识,使他们能够在不同的情况下适当工作。他们将这些指标应用于两个任务:在纽约市的街道上浏览和玩棋盘游戏Othello。
随机模型的表现优于预测性AI
有趣的是,研究人员发现,做出随机决策的变压器模型通常比具有更高预测准确性的变形世界模型更准确。这本身表明,只是为了预测序列而受过训练的AI模型可能没有学会了解他们的工作。
当研究人员在纽约市地图上仅关闭了1%的街道时,AI模型的准确性从接近100%下降到67%,显示出适应性深度的失败。
在奥赛罗游戏的任务中,一个模型成功地创建了在奥赛罗举动的背景下起作用的连贯的“世界模型”,但并没有真正成功地为纽约市导航形成合理的模型。
对未来AI开发的影响
这些结果表明,当前的LLM构建方法和评估方法不足,以发展可靠,
“通常,我们会看到这些模型会做出令人印象深刻的事情,并认为他们必须对世界有所了解。我希望我们能说服人们要非常仔细地思考的问题,而我们不必依靠我们自己的直觉来回答它。”
科学家希望将他们的新指标应用于科学和现实世界中的问题,以找到使LLMS更适应性和可靠的方法。
专注于在AI工程中开发的最终见解可以更好地为现实应用程序构建系统,同时巩固更强大的基础以改善人工智能。