像Chatgpt这样的人工智能(AI)聊天机器人在不久的将来可能并不那么聪明,这是因为在线数据的潜在耗尽而来,它助长了他们的学习过程。
最近的研究由Epoch AI进行建议在2030年代初期,可能会耗尽针对AI语言模型的可公开访问培训数据的库,这引起了人们对当前AI进步的可持续性的担忧。

AI很快会用尽数据吗?
根据AI Epoch的发现,过去几年,AI能力的指数增长主要是由模型的缩放和培训数据集的扩展驱动的。
但是,Internet上有大量高质量的人类生成的文本数据,它是培训AI语言模型(如ChatGpt)的主要来源。
研究估计,此类数据的足够库存约为300万亿代币,预测的耗尽时间表在2026年至2032年之间。
该研究强调了培训数据在扩展AI模型中的关键作用,并强调了对AI开发的可持续方法的需求。它说,如果公司仅依靠有限的公开可用文本数据来实现培训目的,那么当前的AI进度轨迹可能是不可持续的。
此外,该研究讨论了不同缩放策略对数据耗竭时间表的含义。它说,过度训练参数较少和更多数据的AI模型早在2025年就可以加快可用培训数据的耗竭。
该研究还认可了AI培训方法中的最新进展,例如使用精心过滤的Web数据以及训练模型而不会显着降解的能力。
但是,团队警告说,即使有了这些进步,AI发展的长期可持续性仍然不确定。随着对AI功能的需求的增长,公司可能在采购高质量培训数据方面面临挑战,以推动AI技术的进一步进步。
维持AI进步所需的新创新
为了应对数据耗竭的迫在眉睫的挑战,OpenAI和Google等科技公司正在寻求培训数据的替代来源,包括与Reddit和News Media媒体等在线平台的合作伙伴关系。
但是,这些努力可能只提供短期解决方案,因为新的公开文本数据的供应是有限的,并且随着时间的流逝而耗尽。
该研究表明,将需要新的创新来维持AI的进展,而不仅仅是公开培训数据耗尽。这些可能涉及合成数据生成技术的开发,利用替代数据模式以及提高数据效率。
尽管人工智能开发的未来仍然不确定,但该研究预计在研发上继续投资,以应对这些挑战并推动未来的AI技术进步。研究小组的发现是出版在Arxiv中。
