(人工智能)先知和新闻贩子预测生成式人工智能炒作的终结,并谈到即将发生的灾难性的“模型崩溃”。
但这些预测有多现实?模型崩溃到底是什么?
讨论于2023,但流行最近其中,“模型崩溃”指的是一种假设情景,即未来的人工智能系统会因为互联网上人工智能生成的数据的增加而变得越来越愚蠢。
数据需求
现代人工智能系统采用以下方式构建:程序员设置了底层的数学结构,但真正的“智能”来自于训练系统模仿数据中的模式。
但并非随便什么数据都可以。当前的生成式人工智能系统需要大量高质量数据。
为了获取这些数据,OpenAI、谷歌、Meta 和 Nvidia 等大型科技公司不断搜索互联网,收集数 TB 的内容给机器喂食。但自从广泛可用和有用随着 2022 年生成式人工智能系统的出现,人们越来越多地上传和分享部分或全部由人工智能制作的内容。
2023 年,研究人员开始怀疑是否可以只依赖人工智能创建的数据进行训练,而不是依赖人类生成的数据。
实现这一目标的动机非常强烈。除了在互联网上激增之外,人工智能制作的内容还便宜得多比人类数据更容易获取。道德上 和 合法地 值得怀疑的大量收集。
然而,研究人员发现,如果没有高质量的人类数据,那么使用人工智能数据进行训练的人工智能系统变得越来越愚蠢因为每个模型都会从前一个模型中学习。这就像近亲繁殖问题的数字版本。
这 ”反刍训练“似乎会导致模型行为的质量和多样性下降。这里的质量大致是指乐于助人、无害和诚实的某种组合。多样性是指反应的变化,以及哪些人的文化和社会观点体现在人工智能输出中。
简而言之:过度使用人工智能系统,我们可能会污染最初使它们有用的数据源。
避免崩溃
大型科技公司不能直接过滤掉人工智能生成的内容吗?其实不然。科技公司已经花费了大量的时间和金钱来清理和过滤他们抓取的数据,一位业内人士最近分享说,他们有时会丢弃高达 90%他们最初为训练模型收集的数据。
随着专门删除人工智能生成内容的需求增加,这些努力可能会变得更加艰巨。但更重要的是,从长远来看,区分人工智能内容实际上会变得越来越困难。这将使过滤和删除合成数据成为一场收益递减的游戏。
最终,迄今为止的研究表明,我们无法完全摆脱人类数据。毕竟,人工智能中的“I”就是从这里来的。
我们是否正走向一场灾难?
有迹象表明,开发人员已经不得不更加努力地获取高质量数据。例如,文档伴随 GPT-4 的发布,该项目数据相关部分参与人员的数量空前。
我们可能也快要耗尽新的人类数据了。一些估计有人说人类生成的文本数据库可能最早在 2026 年就会枯竭。
这可能是 OpenAI 和其他公司竞相巩固独家合作关系行业巨头包括Shutterstock,美联社和新闻集团他们拥有大量专有的人类数据,而这些数据无法在公共互联网上轻易获取。
然而,灾难性模型崩溃的前景可能被夸大了。迄今为止,大多数研究都着眼于合成数据取代人类数据的情况。实际上,人类和人工智能数据可能会同时积累,这降低倒塌的可能性。
未来最有可能出现的情况是,一个由各种不同的生成式人工智能平台组成的生态系统将被用于创建和发布内容,而不是单一的模型。这也增加了抵御崩溃的稳健性。
这是监管机构通过以下方式促进良性竞争的一个很好的理由:限制垄断在人工智能领域,并资助公益技术开发。
真正的担忧
过多的人工智能制作内容还会带来更隐蔽的风险。
大量合成内容可能不会对人工智能发展的进程构成生存威胁,但它确实威胁到(人类)互联网的数字公共利益。
例如,研究人员下降了 16%ChatGPT 发布一年后,编码网站 StackOverflow 上出现了大量活跃用户。这表明人工智能辅助可能已经减少了一些在线社区中人与人之间的互动。
超量生产人工智能内容农场的出现也使得寻找非充斥着广告的点击诱饵。
越来越不可能准确区分人类生成的内容和人工智能生成的内容。补救措施之一是给人工智能生成的内容加水印或贴标签,正如我和其他许多人所做的那样最近突出显示,正如最近澳大利亚政府临时立法。
还有另一个风险。随着人工智能生成的内容变得系统性地同质化,我们可能会失去社会文化多样性有些群体甚至会经历文化抹杀.我们迫切需要跨学科研究在社会和文化挑战由人工智能系统提出。
人际交往和人类数据都很重要,我们应该保护它们。这不仅是为了我们自己,也许也是为了未来模型崩溃的潜在风险。