像Chatgpt這樣的人工智能(AI)聊天機器人在不久的將來可能並不那麼聰明,這是因為在線數據的潛在耗盡而來,它助長了他們的學習過程。
最近的研究由Epoch AI進行建議在2030年代初期,可能會耗盡針對AI語言模型的可公開訪問培訓數據的庫,這引起了人們對當前AI進步的可持續性的擔憂。

AI很快會用盡數據嗎?
根據AI Epoch的發現,過去幾年,AI能力的指數增長主要是由模型的縮放和培訓數據集的擴展驅動的。
但是,Internet上有大量高質量的人類生成的文本數據,它是培訓AI語言模型(如ChatGpt)的主要來源。
研究估計,此類數據的足夠庫存約為300萬億代幣,預測的耗盡時間表在2026年至2032年之間。
該研究強調了培訓數據在擴展AI模型中的關鍵作用,並強調了對AI開發的可持續方法的需求。它說,如果公司僅依靠有限的公開可用文本數據來實現培訓目的,那麼當前的AI進度軌跡可能是不可持續的。
此外,該研究討論了不同縮放策略對數據耗竭時間表的含義。它說,過度訓練參數較少和更多數據的AI模型早在2025年就可以加快可用培訓數據的耗竭。
該研究還認可了AI培訓方法中的最新進展,例如使用精心過濾的Web數據以及訓練模型而不會顯著降解的能力。
但是,團隊警告說,即使有了這些進步,AI發展的長期可持續性仍然不確定。隨著對AI功能的需求的增長,公司可能在採購高質量培訓數據方面面臨挑戰,以推動AI技術的進一步進步。
維持AI進步所需的新創新
為了應對數據耗竭的迫在眉睫的挑戰,OpenAI和Google等科技公司正在尋求培訓數據的替代來源,包括與Reddit和News Media媒體等在線平台的合作夥伴關係。
但是,這些努力可能只提供短期解決方案,因為新的公開文本數據的供應是有限的,並且隨著時間的流逝而耗盡。
該研究表明,將需要新的創新來維持AI的進展,而不僅僅是公開培訓數據耗盡。這些可能涉及合成數據生成技術的開發,利用替代數據模式以及提高數據效率。
儘管人工智能開發的未來仍然不確定,但該研究預計在研發上繼續投資,以應對這些挑戰並推動未來的AI技術進步。研究小組的發現是出版在Arxiv中。
