Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

專家警告

  • 2023-11-11
  • Scien

作為人工智慧(AI)到達其受歡迎程度的峰值,研究人員警告了該行業可能已經用盡了培訓數據 - 運行強大的AI系統的燃料。

這可能會減慢AI模型的增長,尤其是大型語言模型,甚至可能改變AI革命的軌跡。

但是,考慮到網絡上有多少數據,為什麼可能缺乏數據問題?有沒有辦法解決風險?

為什麼高質量數據對AI很重要

我們需要一個很多訓練強大,準確和高質量的AI算法的數據。例如,對Chatgpt進行了570 GB的文本數據的培訓,或3000億個單詞。

同樣,穩定的擴散算法(這是在許多AI形像生成的應用程序(例如Dall-e,Lensa和Midjourney)的背後)。Liaon-5B數據集包括58億個圖像文本對。如果對算法進行了不足的數據訓練,則它將產生不准確或低質量的輸出。

培訓數據的質量也很重要。低質量的數據(例如社交媒體帖子或模糊照片)易於來源,但不足以訓練高性能的AI模型。

從社交媒體平台中獲取的文本可能會偏見或有偏見,或者可能包括模型可以復制的虛假信息或非法內容。例如,當微軟嘗試使用Twitter內容訓練其AI機器人時,學會生產種族主義和厭惡女性的產出。

這就是為什麼AI開發人員尋找高質量的內容,例如書籍,在線文章,科學論文,Wikipedia和某些過濾的Web內容的文本。 Google助手是訓練有素在11,000本浪漫小說中自出版網站SmashWords使其更加對話。

我們有足夠的數據嗎?

AI行業一直在越來越多的數據集上培訓AI系統,這就是為什麼我們現在擁有高性能模型,例如Chatgpt或dall-e 3。同時,研究表明,在線數據庫存的增長速度的越來越慢得多。

在去年發表的一篇論文中一群研究人員預測,如果當前的AI培訓趨勢繼續下去,我們將在2026年之前用完高質量的文本數據。他們還估計,低質量的語言數據將在2030年至2050年之間的某個時候耗盡,以及2030年至2060年之間的低質量圖像數據。

人工智慧可以做出貢獻根據會計和諮詢集團普華永道(PWC)的數據,到2030年,世界經濟向世界經濟提供了15.7萬億美元(24.1萬億美元)。但是用完的可用數據可能會減慢其開發。

我們應該擔心嗎?

儘管以上要點可能會使一些AI粉絲感到震驚,但情況可能並不像看起來那樣糟糕。關於未來AI模型將如何發展的許多未知數以及解決數據短缺風險的幾種方法。

一個機會是AI開發人員改進算法,因此他們使用已經具有更有效的數據。

在接下來的幾年中,他們將能夠使用更少的數據和較少的計算能力來訓練高性能的AI系統。這也將有助於減少AI的碳足跡。

另一個選擇是使用AI創建合成數據訓練系統。換句話說,開發人員可以簡單地生成所需的數據,以適合其特定的AI模型。

幾個項目已經在使用合成內容,通常來自數據生成服務,例如主要是AI。這會變得更加普遍將來。

開發人員還在免費的在線空間之外搜索內容,例如大型出版商和離線存儲庫的內容。考慮一下互聯網之前發表的數百萬個文本。以數字方式提供,他們可以為AI項目提供新的數據來源。

新聞集團(News Corp)是世界上最大的新聞內容所有者之一(在付費牆背後有大部分內容)最近表示是談判內容與AI開發人員打交道。這樣的交易將迫使AI公司支付培訓數據的費用 - 而到目前為止,他們主要將其從互聯網上刮掉。

內容創作者抗議未經授權使用其內容來培訓AI模型,一些起訴公司(例如Microsoft,Openai和穩定性AI。為他們的工作獲得報酬可能有助於恢復創意公司與AI公司之間存在的一些權力失衡。

麗塔·馬圖里昂特(Rita Matulionte),法律高級講師,麥格理大學

本文從對話在創意共享許可下。閱讀原始文章。

相關貼文

在人類尼安德特人混合孩子的傳奇中揭示了神秘的轉折

在人類尼安德特人混合孩子的傳奇中揭示了神秘的轉折

物理學家首次攪拌超固體,證明其奇異的雙重性質

物理學家首次攪拌超固體,證明其奇異的雙重性質

4000 年前的神秘運河網絡早於瑪雅人

4000 年前的神秘運河網絡早於瑪雅人

人的皮膚可以品嚐事物,科學家只是弄清楚為什麼

人的皮膚可以品嚐事物,科學家只是弄清楚為什麼

小行星可能不會在2032年撞到地球,但會回來

小行星可能不會在2032年撞到地球,但會回來

假期是食物焦慮的雷區。以下是如何通過。

假期是食物焦慮的雷區。以下是如何通過。

研究發現劇烈運動的潛在負面影響是我們所不知道的

研究發現劇烈運動的潛在負面影響是我們所不知道的

科學家稱,即使沒有行星,太空中也可能存在生命

科學家稱,即使沒有行星,太空中也可能存在生命

科學家發現星係以每小時數百萬公里的速度相撞

科學家發現星係以每小時數百萬公里的速度相撞

熱門閱讀

  • 專家揭示了降低中風風險的8種“基本”方法 2025-03-22
  • 研究發現劇烈運動的潛在負面影響是我們所不知道的 2024-11-18
  • 評論成千上萬的研究證實了保持記憶清晰的最佳方法 2025-04-09
  • “地震群”:成千上萬的地震後,聖托里尼的緊急情況 2025-02-10
  • 什麼是總量控制與交易?政策、範例和有效性 2025-03-12
  • 火星上令人毛骨悚然的發現看起來完全像人臉 2024-10-18
  • 由於我們對巧克力的熱愛,地球上最大的昆蟲滅絕了 2025-03-04
  • 專家揭示為什麼你不應該每天做同樣的鍛煉 2024-12-24
  • 在人類尼安德特人混合孩子的傳奇中揭示了神秘的轉折 2025-03-16
  • 什麼是總量控制與交易?政策、範例和有效性 2025-01-01

上升趨勢

  • Android 16:Google糾正了鏡頭,最後放回了這個基本的捷徑 2025-04-18
  • 對於Google,Pixel 9a與庸俗的iPhone不可媲美16 2025-04-18
  • 橙色後機:Livebox 6已經回來了 2025-04-18
  • 這57個鍍鉻擴展可以在600萬檯面上監視,並緊急卸載它們 2025-04-18
  • 高速公路上的150 km/h在AI幫助下,這是合理的嗎? 2025-04-18
  • 騙局,深擊,加密貨幣:Google在2024年封鎖了51億個廣告 2025-04-18
  • Netflix在法國大大提高了其價格,這造成了很多傷害! 2025-04-18
  • 昆士蘭州洪水中的bilbies“會很好” 2025-04-17
  • 有了這個項目,MG希望以不到20,000歐元的價格出售電動汽車 2025-04-18
  • Freebox Pop S機器引誘橙色,Bouygues和SFR訂戶 2025-04-18

最近發布

  • 洩漏的Apple Watch系列10原型揭示了報廢的健康傳感器 2025-04-01
  • 我在孩子的隨身行李箱中裝了 18 小時旅行所需的所有物品 2025-03-14
  • Mac上的mdnsresponder是什麼,這是安全的嗎? 2025-01-27
  • 在美國的手勢上,一個普通的“派對”是歐洲部分地區的令人震驚的粗魯侮辱 2025-03-14
  • PS5 Pro 失敗:《阿凡達:潘朵拉邊境》加入 PS5 遊戲失敗名單 2024-12-02
  • Microsoft Store“遇到錯誤 2024-09-17
  • 將 FLAC 與 CUE 檔案分割成單獨軌道的 5 個工具 2024-12-14
  • 我在孩子的隨身行李箱中裝了 18 小時旅行所需的所有物品 2025-03-16
  • 如何更改 iPhone 前往語音信箱之前的響鈴次數 2024-04-13
  • 這座在哈德遜河(Hudson River)上被低估的紐約市是一個迷你紐約市,但更迷人 2025-02-22

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜