科幻小说充满了叛变并背叛人类创造者。HAL-9000。黑客帝国。天网。GLaDOS。赛昂人。人类似乎对机器的叛乱有着深深的恐惧。
随着 Chat GPT 等越来越复杂的大型语言模型 (LLM) 的兴起,人工智能可能带来哪些危险有变得更加重要。
现在,我们有一些好消息。根据德国达姆施塔特工业大学计算机科学家 Iryna Gurevych 和英国巴斯大学计算机科学家 Harish Tayyar Madabushi 领导的一项新研究,这些模型不会失控。
事实上,它们受到编程的太多限制,无法在没有指导的情况下获得新技能,因此仍然受人类的控制。
这意味着,尽管我们仍然有可能利用这些模型来达到邪恶的目的,但就其本身而言,LLM 的开发是安全的,无需担心。
“人们担心,随着模型变得越来越大,它们将能够解决我们目前无法预测的新问题,这就带来了威胁,即这些更大的模型可能会获得包括推理和规划在内的危险能力。”泰亚马达布什 说。
“我们的研究表明,担心一个模型会消失并产生一些完全出乎意料、创新且具有潜在危险的事情是没有道理的。”
近几年,法学硕士的水平已经达到了惊人的高度。他们现在能够通过文字进行相对连贯的对话,而且这种对话方式看起来自然而又人性化。
它们并不完美——因为它们实际上不是一种智力形式,它们缺少这关键技能需要区分好信息和坏信息。但它们仍然可以以令人信服的方式传达错误的信息。
最近,一些研究人员调查了可能性被称为新兴能力是由 LLM 独立开发的,而不是刻意在编程中编码的。一个特定的例子是 LLM能够回答问题在没有接受过针对社交情况的明确培训的情况下,
观察结果表明,随着 LLM 规模的扩大,它们会变得更加强大,能够执行更多任务。目前尚不清楚这种规模是否也意味着我们可能没有准备好应对的行为风险。因此,研究人员进行了一项调查,以查看此类情况是否真正出现,或者程序只是在其代码边界内以复杂的方式运行。
他们尝试了四种不同的法学硕士模式,并给他们分配了此前被认定为新兴. 他们没有发现任何证据表明存在差异化思维的发展,也没有发现任何模型能够在编程之外发挥作用。
对于所有四个模型,遵循指示的能力、记忆力和语言能力都能够解释法学硕士所展现的所有能力。没有偏离轨道。我们无需担心法学硕士本身。
另一方面,人们不太值得信赖. 我们对人工智能的爆炸式增长的使用,并挑战一切,从版权到信任,再到如何避免自己的,这正在成为一个真正的问题。
“我们的研究结果并不意味着人工智能根本不构成威胁。”古列维奇说。
“相反,我们表明,所谓与特定威胁相关的复杂思维技能的出现并没有证据支持,而且我们毕竟可以很好地控制法学硕士的学习过程。因此,未来的研究应该关注这些模型带来的其他风险,比如它们可能被用来制造虚假新闻。”
该研究已作为第 62 届计算语言学协会年会。