專家警告

作為人工智慧（AI）到達其受歡迎程度的峰值，研究人員警告了該行業可能已經用盡了培訓數據 - 運行強大的AI系統的燃料。

這可能會減慢AI模型的增長，尤其是大型語言模型，甚至可能改變AI革命的軌跡。

但是，考慮到網絡上有多少數據，為什麼可能缺乏數據問題？有沒有辦法解決風險？

為什麼高質量數據對AI很重要

我們需要一個很多訓練強大，準確和高質量的AI算法的數據。例如，對Chatgpt進行了570 GB的文本數據的培訓，或3000億個單詞。

同樣，穩定的擴散算法（這是在許多AI形像生成的應用程序（例如Dall-e，Lensa和Midjourney）的背後）。Liaon-5B數據集包括58億個圖像文本對。如果對算法進行了不足的數據訓練，則它將產生不准確或低質量的輸出。

培訓數據的質量也很重要。低質量的數據（例如社交媒體帖子或模糊照片）易於來源，但不足以訓練高性能的AI模型。

從社交媒體平台中獲取的文本可能會偏見或有偏見，或者可能包括模型可以復制的虛假信息或非法內容。例如，當微軟嘗試使用Twitter內容訓練其AI機器人時，學會生產種族主義和厭惡女性的產出。

這就是為什麼AI開發人員尋找高質量的內容，例如書籍，在線文章，科學論文，Wikipedia和某些過濾的Web內容的文本。 Google助手是訓練有素在11,000本浪漫小說中自出版網站SmashWords使其更加對話。

AI行業一直在越來越多的數據集上培訓AI系統，這就是為什麼我們現在擁有高性能模型，例如Chatgpt或dall-e 3。同時，研究表明，在線數據庫存的增長速度的越來越慢得多。

在去年發表的一篇論文中一群研究人員預測，如果當前的AI培訓趨勢繼續下去，我們將在2026年之前用完高質量的文本數據。他們還估計，低質量的語言數據將在2030年至2050年之間的某個時候耗盡，以及2030年至2060年之間的低質量圖像數據。

人工智慧可以做出貢獻根據會計和諮詢集團普華永道（PWC）的數據，到2030年，世界經濟向世界經濟提供了15.7萬億美元（24.1萬億美元）。但是用完的可用數據可能會減慢其開發。

儘管以上要點可能會使一些AI粉絲感到震驚，但情況可能並不像看起來那樣糟糕。關於未來AI模型將如何發展的許多未知數以及解決數據短缺風險的幾種方法。

一個機會是AI開發人員改進算法，因此他們使用已經具有更有效的數據。

在接下來的幾年中，他們將能夠使用更少的數據和較少的計算能力來訓練高性能的AI系統。這也將有助於減少AI的碳足跡。

另一個選擇是使用AI創建合成數據訓練系統。換句話說，開發人員可以簡單地生成所需的數據，以適合其特定的AI模型。

幾個項目已經在使用合成內容，通常來自數據生成服務，例如主要是AI。這會變得更加普遍將來。

開發人員還在免費的在線空間之外搜索內容，例如大型出版商和離線存儲庫的內容。考慮一下互聯網之前發表的數百萬個文本。以數字方式提供，他們可以為AI項目提供新的數據來源。

新聞集團（News Corp）是世界上最大的新聞內容所有者之一（在付費牆背後有大部分內容）最近表示是談判內容與AI開發人員打交道。這樣的交易將迫使AI公司支付培訓數據的費用 - 而到目前為止，他們主要將其從互聯網上刮掉。

內容創作者抗議未經授權使用其內容來培訓AI模型，一些起訴公司（例如Microsoft，Openai和穩定性AI。為他們的工作獲得報酬可能有助於恢復創意公司與AI公司之間存在的一些權力失衡。

本文從對話在創意共享許可下。閱讀原始文章。