作为数百万互联网用户使用的 ChatGPT 等对话代理的核心,语言模型解释了人工智能在自然语言处理 (NLP) 领域的相关性的演变。简要介绍这些语言模型(例如大语言模型(LLM))的功能将使我们能够更好地得出定义。
人工智能正在经历民主化浪潮空前的,感谢会话代理的到来,例如聊天GPT。它们使向公众展示深度学习和人工智能能力最引人注目的方面之一成为可能:通过演示如何挪用人类语言并与他们进行讨论,而无需靠近盘子。
您肯定已经想知道,在如此短的时间内,我们如何从本质上通过代码与机器的关系转变为这种简单的自然语言,它只要求让您想象与另一个人交谈。这就是语言模型发挥作用的地方,虽然它仍然是一个使用向量和函数的计算机模型,但它充当了两个似乎分离的实体(人类和机器)之间的缓冲区。
语言模型简介
因此,语言模型是计算机系统,其使命是将自然语言翻译给机器,让机器理解、分析和响应请求,进行翻译、总结,同时也模拟想象、反思,并考虑到什么以前无法以功能的形式进行系统化和理论化:文化的细微差别、感受和情感。
自2017年以来,随着法学硕士的兴起,一场革命出现了(大语言模型),例如 Google 的 Transformers,它将文本理解和响应与自然语言的相关性推向了前所未有的水平。从现在开始,机器产生的数学模型与真正的人类智能相融合,吞下天文数字的数据,并建立对数十亿参数的响应能力。
这些单词不再被一个接一个地分析或生成:机器能够立即将一个陈述作为一个整体,并比任何人类更快地提供分析、总结、翻译甚至更正和测试。
词汇表
能够进入语言模型的定义并很好为了能够解释会话代理如何工作,我们必须使用表达方式和特定词汇。在开始之前,让我们尝试创建一个简短的术语表。
聊天机器人:它通常被称为“聊天机器人”,是一种允许您发送文本查询并获取响应的应用程序。聊天 GPT 和谷歌吟游诗人是基于人工智能和语言模型的对话代理。此前,聊天机器人在形式上可能受到更多限制,例如数字助理。
顺序数据:所有句子、段落、文档都是顺序数据的示例。在自然语言处理中,句子或其他文本单元中的单词顺序对于理解整体含义至关重要。
入口和出口:条目通常是互联网用户发送的顺序数据。输出是机器考虑输入和其他参数(例如先前的序列数据、通过训练获得的语言模型数据等)生成的序列数据。
设置:为了能够理解、分析并提出对输入的响应,语言模型使用一整套参数,这些参数是通过训练人工智能获得的。这些参数称为权重,根据数据库中的示例进行调整。参数越多,语言模型就越能够分析输入并提供更复杂的输出。
NLP(自然语言处理):自然语言处理学科的所有专业领域。这可能涉及翻译、摘要、生成甚至文本分类。 ChatGPT 等工具将所有这些元素结合在一起。
定义人工智能语言模型
ChatGPT 或 Bard 型对话代理背后的语言模型是一个允许机器理解并生成自然语言文本的系统,即人类的自然语言。为了能够用一种语言说话、理解上下文、感受语气和其他微妙之处、文化方面、学习模式并提出相关响应,语言模型必须依赖大量数据并知道如何处理和正确应用它它与用户输入。
一些有限的语言模型适用于纯统计模型,而其他语言模型(例如法学硕士)则适用于机器学习。最先进的语言模型都能够分析所有单词和单词组之间的关系、上下文,并将先前的文本序列保留在内存中以考虑时间上下文。它依赖于更多参数并引入了其他技术,例如“令牌”和“掩码”。
语言模型是会话代理的计算核心:当用户的文本输入被转换为一系列数字(称为向量)时,它们就会发挥作用,并通过多种类型的数据编码器、解码器以及演化而来的方法进行分析。 N-grams 模型到 LLM,包括循环网络。当机器生成文本输出并显示在互联网用户的屏幕上时,它的作用就结束了。
载体的作用
在所有情况下,这些模型都是预测单词或单词序列出现在句子中的概率的数学模型。因此,这些模型会经过真正的计算机处理——这并不神奇。它们使用算法模型进行翻译,因此涉及系统将输入转换为数字,然后再将其转换回文本以进行输出。
与此同时,它们变成了称为向量的数字序列。在 NLP 中,这些向量尤其可以相对于其他单词进行分类,从而建立它们之间的邻近度分数。向量中的位数决定了模型的维数。这些向量对于定义每个单词的含义、使自然语言数学化并最终使其能够模仿人类的理解及其语言起着决定性的作用。
随着时间的推移,向量也开始被用来考虑自然语言中更微妙的点:比如影射、情感、幽默。
人工智能的作用
语言模型是自然语言处理 (NLP) 人工智能领域的核心元素。那么什么是人工智能的作用?为了能够建立高质量的语言模型,必须考虑大量数据,即使只是为了建立单词之间的分类、它们的相似性、它们的差异等。为此,神经网络可以毫不费力地在创纪录的时间内完成人类所能完成的艰巨工作。
因此,人工智能在语言模型中的地位尤其体现在来自大量文本数据的训练中——通常法学硕士是在一组超过 100,000 亿个单词 (10B) 上进行预训练的,特别是来自 Common Crawl、The Pile、MassiveText、维基百科的单词和 GitHub。但随后人工智能也会出现,以帮助模型提供上下文和智能响应的能力,特别是通过继续学习。
如今,随着机器学习甚至深度学习的到来,语言模型的能力已经取得了进步。语言模型达到Meta 的 Llama 2 上的 70 B 设置OpenAI 的 GPT-3 上有 1750 亿美元。公众已知(和使用)的主要是大语言模型(法学硕士),但要达到我们今天所知道的,这些模型依赖于其他更有限的模型,但每个模型都为法学硕士的设计做出了贡献。
循环网络的作用
在形成我们今天所知的法学硕士模型之前,语言模型首先基于循环网络的概念。这些模型以数字方式处理文本数据,并用思维向量分析每个单词的每个向量。思想向量遵循相同的原则,因此在句子中添加每个新单词后都会对其进行调整。就像人脑在阅读过程中逐字发现句子的含义,并通过连续阅读的每个单词形成句子的想法一样,循环网络因此可以有很好的理解,并提供更相关和更相关的信息。由于这个向量,上下文中的输出。
变形金刚的角色
大型语言模型 (LLM) 并非一蹴而就。在它们和循环网络之间有几个改进的版本,试图纠正模型理解中的缺陷,特别是由于内存限制和单词重要性的权重。我们特别可以引用长短期记忆(LSTM)和门控循环单元(GRU)。但语言模型真正的革命要追溯到2017年,谷歌研究人员提出的Transformers模型,导致了LLM最流行原理的出现。
Transformer 的方法与循环网络不同:它不是分析每个单词,而是分析整个句子或一组句子。然后,链接到单词的每个向量的权重通过标记和掩码的原则。 Transformer 是一种架构,它提供了一种对上下文数据和文本数据进行建模的新方法。足以消除记忆问题、句子中单词的位置问题、建立单词的非本地关系的问题。
“面具”有两种类型:因果过滤器,根据句子的上下文影响一个向量而不是另一个向量;以及填充过滤器,它对理解或响应没有影响,但只允许不同长度的句子。通过添加单词来规范化为相同大小的句子(我们仍然在数学上,一切都必须是正方形的)……这些单词没有用,也不应该被机器考虑在内。
就令牌而言,它们通过添加更多需要考虑的事项以及理解每个单词的双向维度来丰富循环网络的向量。例如,特征标记(称为“嵌入”)被添加到注意力层中,对句子中每个单词的重要性进行加权,并在每个单词之间建立链接,而不会使整体含义变得更加复杂。 。不同的语言模型继续优化这些标记及其处理。
谷歌首先推出了 BERT,此后推出了 LaMDA(也称为 Lambda),最后推出了 PaLM(用于广义语言理解和多个信息源的集成)。 OpenAI 还基于 GPT-3、GPT-3.5 和 GPT-4 的 Transformer 模型。其语言模型的第一个版本可以追溯到 2018 年。今天GPT-4它以更多的输入(不仅限于文本输入,还接受图像或音频)而脱颖而出,并且参数将远大于 GPT-3 的 1750 亿权重。
语言模型的局限性
我们必须区分两件事:语言模型的局限性和一般语言模型的局限性。质疑一种语言模型不同于质疑整个语言模型的进化能力。
然而,在使用自然语言与机器交互时,是否存在完全不同的解决方案?迄今为止,所有语言模型都有其局限性,但任何改进途径仍然涉及相同的语言模型总体原理和算法丰富……与人类灵魂和意识相去甚远。
因此,语言模型的原理仍然特别依赖于能够访问重要但并非无限的数据的高质量培训(由于缺乏必要的计算机资源)。同时,严格来说,语言模型什么也不知道。他们只会做类比,不会记忆。因此,发明的反应占主导地位,与“幻觉”相比更常见。
最终,通过查看语言模型来理解对话代理类似于打开数据中心的大门来了解互联网的功能(和限制)。 ChatGPT 今天提供的魔力是可以解释的,其工作成果将返回到由人类想象和实施的成品系统中。
在 Meta,人工智能的发展部分是法国故事。在与杰罗姆·佩森蒂 (Jérome Pesenti) 合作数年之后,研究员Yann LeCun 巡回演出奖得主去年六月讨论了一种新的语言模型的主题,称为杰帕(“联合嵌入预测架构”),其重大进步是“机器至少和人类一样聪明,甚至更聪明”Facebook 母公司人工智能科学研究负责人解释道。通过 JEPA,语言模型架构将考虑新的因素“了解底层世界”。
“如今,与人类的能力相比,机器学习确实很糟糕。 […] 因此,我们缺少了一些巨大的东西”,Yann LeCun 补充道,他毫不讳言,还宣称“今天的人工智能和机器学习真的很糟糕。人类有常识,但机器没有。”对他来说,关注的途径首先是认知方面,即人脑的功能。语言模型过于关注语言的简单理论化和单词的权重。
结论:魔术何时真正超越我们
多亏了语言模型,人工智能已经学会了如何说话。从 n 元模型到大型语言模型(法学硕士),它是对话代理的核心,最终是互联网用户在去年年底发布的 ChatGPT 中发现的真正惊喜。虽然谷歌、Meta、OpenAI 和许多其他公司正在完善自己的技术,但如今它们都依赖于语言模型系统逻辑,能够将人类与机器连接起来,形成两个人之间几乎完美的对话幻觉。
然而,在讨论中,我们更愿意将效果联系起来哇广义上的人工智能,而不引用和解释其创建者完全了解的将自然语言转录成数字序列、“标记”向量的系统的功能, 的与认知学习无关的输入和输出的“面具”。但批评已经够多了,语言模型目前仍然是唯一为 NLP 领域的对话代理和其他工具提供实现其雄心的手段的模型。
认知逻辑和量子计算机
因此,我们模仿演绎、分析、反思……但是对话代理提出的结果,尽管他们是在虚张声势,但他们的魔术的秘密在某种程度上还是显而易见的。因此,未来语言模型必须继续扩大规模和运行能力。在不久的将来,最大的改进途径将是通过硬件:量子计算机的到来将使语言模型和人工智能进一步超越当前的规模。
迄今为止,所有模型都不相同,当我们面临极限时,有些模型会回归逻辑基础:专注于单一目标,而忽略全局人工智能——拥有一切问题答案的对话代理。许多公司会发现专注于特定领域更有趣,特别是在研究领域(例如医学和生物学研究)以及在开源模型上共同分享想法和进步的社区已经在人工智能世界众所周知的平台上聚会:抱脸。
我们需要关注的是语言模型的明显局限性。质疑它的存在就是质疑 NLP 至今运作的核心。从那里开始,新的系统可能会诞生并包含一个更大的系统,这一次将寻求模拟和模仿人类特有的认知。从那时起,魔术将变得更大——幻象将不再是戴帽子的兔子,而是魔术师本人。
无论如何,我们会永远坚持魔法吗?