在 2016 年的科幻电影《降临》中,一位语言学家面临着破译一个语言的艰巨任务。由回文短语组成的语言,向后读与向前读时相同,用圆形符号书写。当她发现各种线索时,世界各地不同的国家对这些信息有不同的解读——有些人认为它们传达了威胁。
如果人类今天最终陷入这样的境地,我们最好的选择可能是转向研究,揭示如何(人工智能)开发语言。
但语言的确切定义是什么?我们大多数人至少使用一种方式与周围的人交流,但它是如何产生的呢?语言学家们一直在思考几十年来这个问题,但没有简单的方法找出语言是如何进化的。
语言是短暂的,它在化石记录中没有留下任何可检验的痕迹。与骨头不同,我们无法挖掘古代语言来研究它们是如何随着时间的推移而发展的。
虽然我们可能无法研究人类语言的真正进化,但模拟也许可以提供一些见解。这就是人工智能的用武之地——一个令人着迷的研究领域,称为紧急通讯,这是我过去三年来研究的。
为了模拟语言如何进化,我们给代理(AI)提供了需要通信的简单任务,例如在游戏中,一个机器人必须引导另一个机器人到网格上的特定位置,而不向其显示地图。我们(几乎)对他们可以说什么或如何说没有任何限制——我们只是给他们任务,让他们随心所欲地解决它。
因为解决这些任务需要智能体相互交流,所以我们可以研究它们的交流如何随着时间的推移而演变,以了解语言如何演变。
有关的:
相似的已经对人类进行了实验。想象一下,您是一位讲英语的人,与一位非英语人士配对。你的任务是指导你的伙伴从桌子上的各种物体中拿起一个绿色立方体。
您可以尝试用手比出一个立方体形状,并指向窗外的草地以指示绿色。随着时间的推移,你们会一起开发一种原始语言。也许您会为“立方体”和“绿色”创建特定的手势或符号。通过反复的交互,这些临时的信号会变得更加精致和一致,形成一个基本的通信系统。
这对于人工智能来说也同样有效。通过反复试验,他们学习交流他们看到的物体,而他们的对话伙伴则学会理解它们。
但我们怎么知道他们在说什么?如果他们只与他们的人工对话伙伴而不是与我们一起发展这种语言,我们如何知道每个单词的含义?毕竟,一个特定的词可能意味着“绿色”、“立方体”,或更糟糕——两者兼而有之。这种解释的挑战是我研究的一个关键部分。
破解密码
乍一看,理解人工智能语言的任务似乎几乎是不可能的。如果我尝试与只会说英语的合作者说波兰语(我的母语),我们就无法互相理解,甚至不知道每个单词的开头和结尾。
人工智能语言面临的挑战更大,因为它们可能以与人类语言模式完全不同的方式组织信息。
幸运的是,语言学家已经发展出复杂的 工具使用信息论来解释未知的语言。
正如考古学家从碎片中拼凑出古代语言一样,我们使用人工智能对话中的模式来理解它们的语言结构。有时我们会发现惊人的相似之处到人类语言,有时我们发现全新的沟通方式。
这些工具帮助我们窥探人工智能通信的“黑匣子”,揭示人工智能代理如何开发自己独特的信息共享方式。
我最近的工作重点是利用代理人的所见所言来解释他们的语言。想象一下,有一份您不知道的语言的对话记录,以及每个发言者正在看的内容。我们可以将记录中的模式与参与者视野中的物体进行匹配,从而在单词和物体之间建立统计联系。
例如,短语“yayo”可能与一只飞过的鸟重合——我们可以猜测“yayo”是说话者表示“鸟”的词。通过仔细分析这些模式,我们可以开始解码通信背后的含义。
在最新论文由我和我的同事在神经信息处理系统 (NeurIPS) 的会议记录中展示,我们表明这种方法可以用于对人工智能的至少部分语言和语法进行逆向工程,让我们深入了解它们如何可能会构建沟通。
外星人和自治系统
这与外星人有何联系?我们正在开发的用于理解人工智能语言的方法可以帮助我们破译未来的任何外星人通信。
如果我们能够获得一些书面的外星文本以及一些上下文(例如与文本相关的视觉信息),我们可以应用相同的统计工具来分析它们。我们今天开发的方法可能成为未来研究外星语言(称为异种语言学)的有用工具。
但我们不需要找到外星人就能从这项研究中受益。有众多的应用, 从改进语言模型像 ChatGPT 或 Claude 一样,改善自动驾驶车辆之间的通信或无人机。
通过解码新兴语言,我们可以使未来的技术更容易理解。无论是了解自动驾驶汽车如何协调其运动,还是人工智能系统如何做出决策,我们不仅仅是在创建智能系统,我们还在学习理解它们。