(人工智能)先知和新闻母子正在预测生成AI炒作的结束,并谈论即将发生的灾难性的“模型崩溃”。
但是这些预测有多现实?什么是模型崩溃?
讨论了2023,但得到了普及最近,“模型崩溃”是指一个假设的情况,由于Internet上AI生成的数据的增加,未来的AI系统逐渐变得笨拙。
数据的需求
现代AI系统是使用。程序员设置了基本的数学结构,但是实际的“智能”来自训练系统到模拟数据模式。
但不仅仅是任何数据。当前的生成AI系统需要高质量的数据以及大量数据。
为了获取这些数据,OpenAI,Google,Meta和Nvidia等大型科技公司不断搜索互联网内容的trabytes为了供电机器。但是自从出现以来广泛可用和有用2022年的生成AI系统,人们越来越多地上传和共享AI的部分或整个内容。
在2023年,研究人员开始怀疑他们是否只能依靠AI创建的数据进行培训,而不是人类生成的数据,他们是否可以摆脱。
有巨大的激励措施来进行这项工作。除了在Internet上增殖外,AI制作的内容是便宜得多比人类数据来源。也不是从道德上 和 法律上 值得怀疑的收集大批。
但是,研究人员发现,如果没有高质量的人类数据,就可以培训了AI制造的数据的AI系统得到邓伯和邓伯随着每个模型从上一个模型中学习。这就像近交问题的数字版本。
这 ”剖腹训练“似乎导致模型行为的质量和多样性的降低。这里的质量大致意味着有帮助,无害和诚实的某种结合。多样性是指响应的差异,以及人们在AI输出中代表了人们的文化和社会观点。
简而言之:通过如此多的AI系统,我们可能会污染最初需要使它们有用的数据源。
避免崩溃
大型技术不能只是过滤AI生成的内容吗?并不真地。科技公司已经花费大量时间和金钱清洁和过滤它们刮擦的数据,最近有一个行业内部人士分享有时会丢弃多达90%他们最初收集的用于培训模型的数据。
这些努力可能会变得更加要求,因为需要特别删除AI生成的内容增加。但更重要的是,从长远来看,它实际上会变得越来越难以区分AI内容。这将使合成数据的过滤和删除成为减少(财务)回报的游戏。
最终,迄今为止的研究表明,我们无法完全消除人类数据。毕竟,这是AI中的“我”来自的地方。
我们要去灾难吗?
有一些提示开发人员已经不得不更加努力地来获取高质量数据。例如,文档伴随GPT-4版本归功于该项目与数据相关部分的前所未有的员工。
我们可能还用完了新的人类数据。一些估计假设人类生成的文本数据库可能会在2026年后立即被淘汰。
这可能是为什么Openai和其他人竞赛以建立独家合作伙伴关系与行业庞然大物一样快门,,,,美联社和新闻界。他们拥有大量专有的人类数据集,这些数据在公共互联网上不易获得。
但是,灾难性模型崩溃的前景可能被夸大了。到目前为止,大多数研究都查看综合数据取代人类数据的情况。实际上,人类和人工智能数据可能会并行积累,减少崩溃的可能性。
未来最有可能的情况还将看到一个有些多样化的生成AI平台的生态系统用于创建和发布内容,而不是一个单片模型。这也提高了抵抗崩溃的鲁棒性。
这是监管机构通过限制垄断在AI部门,并资助公共利益技术开发。
真正的担忧
过多的AI制造内容也有更多的微妙风险。
大量合成内容可能不会对AI开发的进步构成生存威胁,但它确实威胁到(人类)互联网的数字公共利益。
例如,研究人员发现16%在ChatGpt发行一年后,在编码网站上的Acting网站上的活动中。这表明AI援助可能已经在减少某些在线社区中的人与人互动。
超生产从AI驱动的内容农场也很难找到不是点击诱饵塞满了广告。
可靠地区分人类生成和AI生成的内容是不可能的。解决此问题的一种方法是水印或标记AI生成的内容,因为我和其他许多人都拥有最近突出显示正如最近澳大利亚政府所反映的临时立法。
还有另一种风险。随着AI生成的内容变得系统地均匀,我们可能会失去社会文化多样性一些人甚至可以体验文化擦除。我们急需跨学科研究在社会和文化挑战由AI系统构成。
人类互动和人类数据很重要,我们应该保护它们。为了我们自己的缘故,也许是出于可能未来模型崩溃的风险。
亚伦·斯诺斯韦尔(Aaron J. Snoswell),AI问责制研究员,昆士兰州技术大学