为了创建越来越复杂的大型语言模型,AI公司遇到了令人生畏的障碍:可访问的互联网数据的耗尽。
《华尔街日报》报道说,这些公司几乎用尽了开放互联网的可用资源,这表明对AI模型培训的数据至关重要。
谁会想到他们有一天会用完数据?
寻求替代数据源
随着传统的互联网数据储备的减少,AI公司正在探索获取培训数据的替代途径。有些正在通过AI算法转向公开可用的视频成绩单和合成数据的生成。但是,这种方法提出了自己的一系列挑战,包括由于依赖人为生成的数据而产生的AI模型幻觉的较高风险。
围绕合成数据的问题
根据第一台,对合成数据的依赖引发了专家之间对使用此类数据集训练AI模型的潜在缺陷的关注。人们对称为“数字近交”的现象感到担忧,其中对AI生成数据训练的AI模型可能会遇到稳定性问题,从而导致次优性能或失败。
有争议的数据培训方法
为了应对数据稀缺问题,Openai等AI巨头正在考虑训练其模型的非常规策略。
例如,据报道,Chatgpt Maker Openai正在考虑使用公开可用的YouTube视频中的转录来训练其GPT-5型号。但是,这种方法引起了批评,甚至可能引起视频内容创建者的法律挑战。
通过AI培训模型解决数据稀缺
(照片:Kirill Kudryavtsev/AFP通过Getty Images)
2024年2月26日拍摄的一张照片显示了美国人工智能研究组织OpenAI在智能手机屏幕(L)上开发的ChatGPT应用程序的徽标,以及德国西部Main Frankfurt的笔记本电脑屏幕上的字母AI。
尽管面临挑战,但像OpenAI和Anthropic这样的公司正在积极致力于提高合成数据质量,以解决数据稀缺问题。尽管特定的方法仍在包裹中,但这些公司旨在开发质量卓越的合成数据以维持AI模型培训。
希望突破
尽管对数据稀缺的担忧很大,但许多专家仍然对技术突破缓解这些挑战的潜力保持乐观。
尽管预测表明AI可能会在不久的将来耗尽其可用的培训数据,但AI研究的重大进步可以提供解决这一困境的解决方案。
可持续人工智能发展实践
在更大,更高级的AI模型的种族中,人们对与其发展相关的环境影响越来越多。
一些人主张将重点转向可持续的AI开发实践,考虑到诸如能源消耗和稀土矿物采矿对计算芯片的环境影响等因素。
早在2023年11月,Tech Times报告说,AI公司即将缺少高质量培训数据。几个月后,该主题浮出水面,看来数据耗尽是他们必须克服的另一个问题。