只有通过吞噬大量的图像、文本或其他形式的人类表达,可以炮制出他们自己的边缘不可思议的解释。
当灵感储藏室变得空无一物时?就像少数被困的水手一样,人工智能只能依靠自己来获取经过严格处理的数字营养来源;这个选择可能会带来一些相当令人担忧的后果。
美国莱斯大学和斯坦福大学的研究人员进行的一项新研究提供了证据,表明当人工智能引擎接受合成的机器输入而不是真人制作的文本和图像的训练时,其输出的质量开始受到影响。
研究人员将这种效应模型称为自噬混乱(疯狂)。人工智能有效地消耗了自己,这意味着有相似之处– 用其他牛的受感染遗骸喂养的牛出现神经系统疾病。
研究表明,如果没有新鲜的真实数据,人工智能生成的内容的质量水平和/或多样性水平都会下降。这是对未来的警告AI 坡度从这些模型中。
“我们的理论和实证分析使我们能够推断出随着生成模型变得无处不在并在自我消耗循环中训练未来模型可能发生的情况,”说莱斯大学的计算机工程师理查德·巴拉尼克 (Richard Baraniuk)。
“一些后果是显而易见的:如果没有足够的新鲜真实数据,未来的生成模型注定会变得疯狂。”
Baraniuk 和他的同事们与,在三种不同类型的数据上对其进行训练:完全合成、与固定的真实训练数据混合的合成以及与不断刷新的真实训练数据的合成混合。
随着前两个场景中循环的重复,模型的输出变得越来越扭曲。表现出来的一种方式是通过更明显的伪影,以网格状疤痕的形式,在。
更重要的是,当不涉及新鲜的、人工生成的训练数据时,这些面孔开始看起来越来越相似。在使用手写数字的测试中,数字逐渐变得难以辨认。
如果使用真实数据,但以固定方式使用而不添加新数据,输出的质量仍然会下降,只是需要更长的时间才能分解。看来新鲜度很重要。
“我们的团队在这种反馈循环方面进行了广泛的研究,坏消息是,即使经过几代这样的训练,新模型也可能会变得无法挽回地损坏,”说巴拉纽克。
该团队表示,虽然这项特定研究的重点是图像生成大型语言模型旨在生成文本的法学硕士(LLM)也会以同样的方式失败。这确实已经被注意到其他研究。
专家有生成式人工智能工具已经没有足够的数据来训练自己了——而这项最新研究是对人工智能炒作的又一次检验。这无疑是一项很有前途的技术,但它也有其局限性。
“一种末日情景是,如果几代人都不受控制,MAD 可能会毒害整个互联网的数据质量和多样性,”说巴拉纽克。
“如果做不到这一点,即使在短期内,人工智能自噬也将不可避免地产生迄今为止未见的意想不到的后果。”