隨著人工智慧 (AI) 達到其受歡迎程度達到頂峰, 研究人員已經警告過該行業可能會耗盡訓練數據——運行強大人工智慧系統的燃料。這可能會減緩人工智慧模型的成長,尤其是大型語言模型,甚至可能改變人工智慧革命的軌跡。
但考慮到網路上有多少數據,為什麼潛在的數據缺乏會成為一個問題?有沒有辦法應付風險?
為什麼高品質數據對人工智慧很重要
我們需要一個很多數據來訓練強大、準確和高品質的人工智慧演算法。例如,ChatGPT 接受了 570 GB 文字資料的訓練,或大約3000億字。
類似地,穩定擴散演算法(這是許多 AI 影像生成應用程式(例如 DALL-E、Lensa 和 Midjourney)背後的演算法)在LIAON-5B 資料集由 58 億個圖像文字對組成。如果演算法訓練的資料量不足,它將產生不準確或低品質的輸出。
訓練資料的品質也很重要。社交媒體貼文或模糊照片等低品質資料很容易獲取,但不足以訓練高性能人工智慧模型。
從社群媒體平台取得的文字可能存在偏見或偏見,或者可能包含模型可以複製的虛假資訊或非法內容。例如,當微軟嘗試使用 Twitter 內容訓練其人工智慧機器人時,學會了生產種族主義和厭女的產出。
這就是為什麼人工智慧開發人員尋求高品質的內容,例如書籍文本、線上文章、科學論文、維基百科和某些經過過濾的網路內容。谷歌助理是訓練有素的收錄於 11,000 本言情小說自助出版網站 Smashwords使其更具對話性。
我們有足夠的數據嗎?
人工智慧產業一直在越來越大的資料集上訓練人工智慧系統,這就是為什麼我們現在擁有ChatGPT 或DALL-E 3 等高效能模型。所使用的資料集的成長速度來訓練人工智慧。
在去年發表的一篇論文中,一群研究人員預測如果當前的人工智慧訓練趨勢持續下去,我們將在 2026 年之前耗盡高品質的文字資料。他們還估計,低品質的語言資料將在 2030 年至 2050 年間耗盡,低品質的影像資料將在 2030 年至 2060 年間耗盡。
人工智慧可以貢獻鋼彈根據會計和諮詢集團普華永道的數據,到 2030 年,將為世界經濟帶來 15.7 兆美元(24.1 兆澳元)的貢獻。但可用資料的耗盡可能會減慢其發展速度。
我們該擔心嗎?
雖然上述幾點可能會讓一些人工智慧粉絲感到震驚,但情況可能並不像看起來那麼糟。未來人工智慧模型將如何發展,以及解決資料短缺風險的幾種方法還有很多未知數。
人工智慧開發人員有機會改進演算法,以便更有效地使用現有的數據。
未來幾年,他們很可能能夠使用更少的數據和可能更少的運算能力來訓練高效能的人工智慧系統。這也將有助於減少人工智慧碳足跡。
另一種選擇是使用人工智慧來創建綜合數據來訓練系統。換句話說,開發人員可以簡單地產生他們需要的數據,並根據他們特定的人工智慧模型進行整理。
幾個項目已經在使用合成內容,這些內容通常來自數據生成服務,例如主要是人工智慧。這將變得更加普遍將來。
開發人員還在免費線上空間之外搜尋內容,例如大型出版商和離線儲存庫持有的內容。想想網路之前發布的數以百萬計的文字。它們以數位方式提供,可以為人工智慧專案提供新的資料來源。
全球最大的新聞內容所有者之一新聞集團(其大部分內容均需付費)最近表示,它正在談判內容涉及人工智慧開發人員。此類交易將迫使人工智慧公司為訓練資料付費——而到目前為止,它們大多是免費從網路上獲取資料的。
內容創作者抗議未經授權使用其內容來訓練人工智慧模型,一些公司起訴了諸如微軟、開放人工智慧和穩定性人工智慧。為他們的工作獲得報酬可能有助於恢復創意人員和人工智慧公司之間存在的一些權力不平衡。