為了創建越來越複雜的大型語言模型,AI公司遇到了令人生畏的障礙:可訪問的互聯網數據的耗盡。
《華爾街日報》報導說,這些公司幾乎用盡了開放互聯網的可用資源,這表明對AI模型培訓的數據至關重要。
誰會想到他們有一天會用完數據?
尋求替代數據源
隨著傳統的互聯網數據儲備的減少,AI公司正在探索獲取培訓數據的替代途徑。有些正在通過AI算法轉向公開可用的視頻成績單和合成數據的生成。但是,這種方法提出了自己的一系列挑戰,包括由於依賴人為生成的數據而產生的AI模型幻覺的較高風險。
圍繞合成數據的問題
根據第一台,對合成數據的依賴引發了專家之間對使用此類數據集訓練AI模型的潛在缺陷的關注。人們對稱為“數字近交”的現象感到擔憂,其中對AI生成數據訓練的AI模型可能會遇到穩定性問題,從而導致次優性能或失敗。
有爭議的數據培訓方法
為了應對數據稀缺問題,Openai等AI巨頭正在考慮訓練其模型的非常規策略。
例如,據報導,Chatgpt Maker Openai正在考慮使用公開可用的YouTube視頻中的轉錄來訓練其GPT-5型號。但是,這種方法引起了批評,甚至可能引起視頻內容創建者的法律挑戰。
通過AI培訓模型解決數據稀缺
(照片:Kirill Kudryavtsev/AFP通過Getty Images)
2024年2月26日拍攝的一張照片顯示了美國人工智能研究組織OpenAI在智能手機屏幕(L)上開發的ChatGPT應用程序的徽標,以及德國西部Main Frankfurt的筆記本電腦屏幕上的字母AI。
儘管面臨挑戰,但像OpenAI和Anthropic這樣的公司正在積極致力於提高合成數據質量,以解決數據稀缺問題。儘管特定的方法仍在包裹中,但這些公司旨在開髮質量卓越的合成數據以維持AI模型培訓。
希望突破
儘管對數據稀缺的擔憂很大,但許多專家仍然對技術突破緩解這些挑戰的潛力保持樂觀。
儘管預測表明AI可能會在不久的將來耗盡其可用的培訓數據,但AI研究的重大進步可以提供解決這一困境的解決方案。
可持續人工智能發展實踐
在更大,更高級的AI模型的種族中,人們對與其發展相關的環境影響越來越多。
一些人主張將重點轉向可持續的AI開發實踐,考慮到諸如能源消耗和稀土礦物採礦對計算芯片的環境影響等因素。
早在2023年11月,Tech Times報告說,AI公司即將缺少高質量培訓數據。幾個月後,該主題浮出水面,看來數據耗盡是他們必須克服的另一個問題。