作為人工智慧(AI)到達其受歡迎程度的峰值,研究人員警告了該行業可能已經用盡了培訓數據 - 運行強大的AI系統的燃料。
這可能會減慢AI模型的增長,尤其是大型語言模型,甚至可能改變AI革命的軌跡。
但是,考慮到網絡上有多少數據,為什麼可能缺乏數據問題?有沒有辦法解決風險?
為什麼高質量數據對AI很重要
我們需要一個很多訓練強大,準確和高質量的AI算法的數據。例如,對Chatgpt進行了570 GB的文本數據的培訓,或3000億個單詞。
同樣,穩定的擴散算法(這是在許多AI形像生成的應用程序(例如Dall-e,Lensa和Midjourney)的背後)。Liaon-5B數據集包括58億個圖像文本對。如果對算法進行了不足的數據訓練,則它將產生不准確或低質量的輸出。
培訓數據的質量也很重要。低質量的數據(例如社交媒體帖子或模糊照片)易於來源,但不足以訓練高性能的AI模型。
從社交媒體平台中獲取的文本可能會偏見或有偏見,或者可能包括模型可以復制的虛假信息或非法內容。例如,當微軟嘗試使用Twitter內容訓練其AI機器人時,學會生產種族主義和厭惡女性的產出。
這就是為什麼AI開發人員尋找高質量的內容,例如書籍,在線文章,科學論文,Wikipedia和某些過濾的Web內容的文本。 Google助手是訓練有素在11,000本浪漫小說中自出版網站SmashWords使其更加對話。
我們有足夠的數據嗎?
AI行業一直在越來越多的數據集上培訓AI系統,這就是為什麼我們現在擁有高性能模型,例如Chatgpt或dall-e 3。同時,研究表明,在線數據庫存的增長速度的越來越慢得多。
在去年發表的一篇論文中一群研究人員預測,如果當前的AI培訓趨勢繼續下去,我們將在2026年之前用完高質量的文本數據。他們還估計,低質量的語言數據將在2030年至2050年之間的某個時候耗盡,以及2030年至2060年之間的低質量圖像數據。
人工智慧可以做出貢獻根據會計和諮詢集團普華永道(PWC)的數據,到2030年,世界經濟向世界經濟提供了15.7萬億美元(24.1萬億美元)。但是用完的可用數據可能會減慢其開發。
我們應該擔心嗎?
儘管以上要點可能會使一些AI粉絲感到震驚,但情況可能並不像看起來那樣糟糕。關於未來AI模型將如何發展的許多未知數以及解決數據短缺風險的幾種方法。
一個機會是AI開發人員改進算法,因此他們使用已經具有更有效的數據。
在接下來的幾年中,他們將能夠使用更少的數據和較少的計算能力來訓練高性能的AI系統。這也將有助於減少AI的碳足跡。
另一個選擇是使用AI創建合成數據訓練系統。換句話說,開發人員可以簡單地生成所需的數據,以適合其特定的AI模型。
幾個項目已經在使用合成內容,通常來自數據生成服務,例如主要是AI。這會變得更加普遍將來。
開發人員還在免費的在線空間之外搜索內容,例如大型出版商和離線存儲庫的內容。考慮一下互聯網之前發表的數百萬個文本。以數字方式提供,他們可以為AI項目提供新的數據來源。
新聞集團(News Corp)是世界上最大的新聞內容所有者之一(在付費牆背後有大部分內容)最近表示是談判內容與AI開發人員打交道。這樣的交易將迫使AI公司支付培訓數據的費用 - 而到目前為止,他們主要將其從互聯網上刮掉。
內容創作者抗議未經授權使用其內容來培訓AI模型,一些起訴公司(例如Microsoft,Openai和穩定性AI。為他們的工作獲得報酬可能有助於恢復創意公司與AI公司之間存在的一些權力失衡。
麗塔·馬圖里昂特(Rita Matulionte),法律高級講師,麥格理大學