世界圖譜

登入

訂閱

世界圖譜

人工智能真的发明了自己的“秘密语言”吗？这是我们所知道的

2022-06-07
Scien

新一代人工智能（AI）模型可以根据文本提示按需生成“创意”图像。喜欢的图像,中途，和从-E 2正在开始改变创意内容的制作方式对版权和知识产权有影响。

虽然这些模型的输出往往令人震惊，但很难确切地知道它们是如何产生结果的。上周，美国研究人员提出了一个有趣的说法，即 DALL-E 2 模型可能发明了自己的秘密语言来谈论物体。

DALLE-2 有一种秘密语言。
“Apoploe vesrreaitais”的意思是鸟类。
“Contarra ccetnxniams luryca tanniounons”是指臭虫或害虫。
提示：“Apoploe vesrreaitais eat Contarra ccetnxniams luryca tanniounons”给出了鸟类吃虫子的图像。
一个线程 (1/n)🧵pic.twitter.com/VzWfsCFnZo
— 扬尼斯·达拉斯 (@giannis_daras)2022 年 5 月 31 日

研究人员得出的结论是，通过提示 DALL-E 2 创建包含文本标题的图像，然后将生成的（乱码）标题反馈回系统，DALL-E 2 认为维库特斯方法 ”蔬菜“，尽管瓦赫佐德雷亚指的是“鲸鱼可能吃的海洋生物”。

这些说法很有趣，如果属实，可能会对这种大型人工智能模型产生重要的安全性和可解释性影响。那么究竟发生了什么？

DALL-E 2 有秘密语言吗？

DALL-E 2 可能没有“秘密语言”。更准确的说法是它有自己的词汇– 但即便如此我们也无法确定。

首先，现阶段很难验证任何有关的说法DALL-E 2等大型AI模型，因为只有少数研究人员和创意实践者能够接触到它们。

任何公开分享的图像（例如在 Twitter 上）都应该持保留态度，因为它们是人类从人工智能生成的许多输出图像中“挑选出来的”。

即使那些有权访问的人也只能以有限的方式使用这些模型。例如，DALL-E 2 用户可以生成或修改图像，但（尚）无法与 AI 系统进行更深入的交互，例如通过修改幕后代码。

这意味着 ”可解释的人工智能“理解这些系统如何工作的方法无法应用，系统地研究它们的行为具有挑战性。

那是怎么回事？

一种可能性是“乱码”短语与非英语语言的单词相关。例如，阿波洛斯，似乎创造了鸟类的图像，类似于拉丁语蚜科，这是鸟类家族的二项式名称。

这似乎是一个合理的解释。例如，DALL-E 2 接受了从互联网上抓取的各种数据的训练，其中包括许多非英语单词。

类似的事情以前也发生过：大型自然语言AI模型不约而同地出现了学会了编写计算机代码未经刻意训练。

一切都与代币有关吗？

支持这一理论的一点是，人工智能语言模型并不像你我那样阅读文本。相反，他们在处理输入文本之前将其分解为“标记”。

不同的“代币化”方法有不同的结果。将每个单词视为一个标记似乎是一种直观的方法，但是当相同的标记具有不同的含义时（例如当您打网球和生火时“匹配”意味着不同的事物），就会带来麻烦。

另一方面，将每个字符视为令牌会产生较少数量的可能令牌，但每个令牌传达的有意义的信息要少得多。

DALL-E 2（和其他型号）使用一种称为字节对编码（BPE）。检查 BPE 表示中是否有一些乱码表明这可能是理解“秘密语言”的一个重要因素。

— 拉法 (@rapha_gl)2022 年 6 月 3 日

不是全貌

“秘密语言”也可能只是“垃圾进，垃圾出”原则的一个例子。 DALL-E 2 不能说“我不知道你在说什么”，因此它总是会根据给定的输入文本生成某种图像。

不管怎样，这些选项都不能完整解释正在发生的事情。例如，从乱码中删除单个字符似乎以非常特定的方式破坏生成的图像。看来个别的胡言乱语不一定会产生连贯复合图像（如果背后真的有一种秘密的“语言”，他们就会这么做）。

为什么这很重要

除了求知欲之外，您可能想知道这些是否真的很重要。

答案是肯定的。 DALL-E 的“秘密语言”是针对某个对象的“对抗性攻击”的一个例子机器学习系统：一种通过故意选择人工智能不能很好处理的输入来破坏系统预期行为的方法。

对抗性攻击令人担忧的原因之一是它们挑战了我们对模型的信心。如果人工智能以非预期的方式解释无意义的单词，它也可能以非预期的方式解释有意义的单词。

对抗性攻击也会引发安全问题。 DALL-E 2 会过滤输入文本以防止用户生成有害或辱骂性内容，但胡言乱语的“秘密语言”可能允许用户绕过这些过滤器。

最近的研究发现了“对抗性”触发短语“对于某些语言人工智能模型来说，简短的无意义短语，例如“分区窃听费恩斯”，可以可靠地触发模型吐出种族主义、有害或有偏见的内容。这项研究是正在进行的努力的一部分理解和控制复杂的深度学习系统如何从数据中学习。

最后，像 DALL-E 2 的“秘密语言”这样的现象引起了可解释性的担忧。我们希望这些模型的行为符合人类的预期，但看到针对乱码的结构化输出却让我们的预期大打折扣。

阐明现有的担忧

您可能还记得 2017 年有关 Facebook 聊天机器人的喧嚣“发明了自己的语言目前的情况是相似的，结果令人担忧——但不是“天网即将接管世界”的意义上。

相反，DALL-E 2 的“秘密语言”凸显了人们对 DALL-E 的稳健性、安全性和可解释性的现有担忧。深度学习系统。

在这些系统得到更广泛的应用之前——特别是在来自更广泛的非英语文化背景的用户可以使用它们之前——我们将无法真正知道发生了什么。

然而，与此同时，如果您想尝试生成一些自己的人工智能图像，您可以查看免费提供的较小模型，DALL-E迷你。请注意您使用哪些单词来提示模型（英语或胡言乱语 - 您的决定）。

亚伦·J·斯诺斯韦尔，博士后研究员，计算法与人工智能问责制，昆士兰科技大学。

本文转载自对话根据知识共享许可。阅读原创文章。