Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

AI:OpenAI、Google、Meta的結合克服數據短缺

  • 2024-04-09
  • Misha

找到數據,你就能主宰人工智能市場:這種對數據的“追求”,以及遇到的一千零一個法律或實際障礙、Google 和 Meta,這就是紐約時報在 4 月 6 日發表的一篇報導中。我們的同事利用內部會議錄音和匿名證詞解釋了 Meta、OpenAI 和,他們都開發了 Llama、ChatGPT 和,我們面臨著真正的“短缺”。足以引導他們考慮幾種選擇,有時甚至接近合法性,以找到使他們贏得人工智能競賽的因素——即為他們的大型語言模型提供數據,並允許他們學習制定句子、代碼或生成視頻。

這個真正的追求是由美國約翰·霍普金斯大學的物理學家賈里德·卡普蘭 (Jared Kaplan) 於 2020 年 1 月提出的,他現在在。那年,這位科學家在一篇關於人工智能的文章中提出了這樣的觀察:訓練大型語言模型的數據越多,它的效率就會越高——有點像一個學生,通過讀很多書,變得更有文化。

儘管該行業的公司一致接受這一原則,但他們面臨著一個主要問題:相關數據既不能自由訪問,也不能不受限制。去年五月認識到的一點,OpenAI 的負責人。在一次會議上,這位經理承認,人工智能公司需要越來越多的數據,很快就會“耗盡”互聯網上所有可用的數據——例如新聞文章、論壇上的觀點或消息、維基百科文章、照片、播客、視頻以及某些作品。

其他人也得出了這個結論,例如研究機構 Epoch,根據該研究,公司最早可以在 2026 年耗盡互聯網上的“高質量”數據——這是來自專業人士撰寫的書籍或文章的數據。換句話說,開發人工智能的公司使用數據的速度會比數據產生的速度快。

在 Meta:2023 年 3 月和 4 月的危機會議上尋找數據

如何解決這個問題呢?幾個月來,該行業的公司一直在考慮不同的解決方案,從 Meta 開始。紐約時報。 2023 年初,馬克·扎克伯格 (Mark Zuckerberg) 的團隊可能會注意到,他們不再擁有足夠的數據來組建法學碩士課程。根據一名員工與我們同事分享的內部會議記錄,這一觀察是由艾哈邁德·阿爾-達勒(Ahmad Al-Dahle)做出的。 Meta 的生成人工智能副總裁表示,他的團隊幾乎使用了網絡上所有英文書籍、論文、詩歌和新聞文章。然而,據報導 Ahmad Al-Dahle 解釋說,如果沒有額外的數據,Meta 將無法與 ChatGPT 競爭,除非它獲得更多數據。

2023 年 3 月和 4 月,會議將相繼召開,以找出如何從 Meta 的鞋子上取出這塊石頭的方法。在 Facebook 和 Instagram 的母公司內部,我們首先考慮收購出版社 Simon & Schuster。目標是:根據美國媒體可以訪問的內部會議記錄,獲得長篇作品。據稱,Meta 員工隨後討論了網絡上受版權保護作品的使用,以及與出版商、藝術家、音樂家和媒體機構的許可談判。但在內部,我們會覺得最後一步會花費太長的時間,導致 Meta 在這場人工智能競賽中遠遠落後。據報導,一名律師在其中一次會議上警告“道德問題» 未經授權而使用藝術家和作者的知識產權。我們的同事解釋說,他的警報之後就會是沉默,並支持會議錄音。

最終,這就是我們會選擇的選項。據報導,該組織的律師解釋說,應該考慮從網絡收集數據,以便訓練人工智能模型“合理使用”。美國版權法的這一例外允許在某些情況下使用受版權保護的作品——但這種用於訓練人工智能的案例​​​​尚未得到美國法院的裁決。對於藝術家和作家來說,這種使用是真正的“掠奪» 必須停止並給予補償。面對我們同事的質疑,梅塔解釋說,他“進行了積極的投資» 將人工智能集成到其服務中。該組織補充說,它在 Instagram 和 Facebook 上公開分享了數十億張圖像和視頻來訓練其模型。

另請閱讀:你

但對於代表矽谷風險投資公司的律師 Sy Damle 來說,依賴受版權保護但可通過網絡訪問的數據是“這些工具(人工智能,編者註)存在的唯一實用方法» – 該行業的公司經常提出的一個論點。這些生成式人工智能必須提供“接受大量數據的培訓,而無需支付該數據的許可證費用»,這位律師去年在關於版權和人工智能模型的公開討論中解釋道,我們的同事也對此表示贊同。 “所需數據海量,集體許可也確實行不通“,他補充道。

另請閱讀:

在 Google:使用 YouTube 視頻

就谷歌而言,它可以通過使用其平台之一來彌補這一短缺:YouTube。據稱,他將 YouTube 視頻轉錄成文本,然後用文本來訓練他的人工智能模型,“五名熟悉公司慣例的人» 受到我們同事的質疑。據報導,去年 7 月,這家巨頭還改變了其免費消費者應用程序(如 Google Sheets 或 Google Doc)的使用條件。其目標:將公開用戶數據的使用擴展到 Bard(以前稱為 Gemini),其生成人工智能指定了紐約時報。

但據谷歌發言人稱,這是沒有用的“沒有明確許可» 用戶,參考允許他們測試某些實驗功能的自願計劃。其人工智能模型“接受過一些 YouTube 內容的培訓»,這將在與 YouTube 內容創作者達成的協議框架內獲得授權,”他向我們的同事補充道。

在 OpenAI,研究人員首先使用計算機代碼存儲庫 GitHub 等數據,或 Quizlet 網站上描述高中考試和作業的數據。但從 2021 年 12 月開始,該行業領先者面臨著同樣的短缺:沒有更多數據可用。然後,開發 GPT-4 的團隊會考慮不同的選擇:創建合成數據(由人工智能係統創建)、將播客或 YouTube 視頻轉錄為寫作或購買收集了大量數字化數據的初創公司。最後,據我們同事採訪的六位人士透露,OpenAI 選擇了 Whisper,這是一種可以以書面形式轉錄 YouTube 視頻和播客的工具。

如果這家美國公司指出 YouTube 禁止“任何自動化手段(例如機器人或刮刀)» 在他的視頻中,由於“合理使用»,根據我們同事收集的證詞,OpenAI 團隊認為這是美國版權法的例外。

OpenAI 對 YouTube 視頻的使用是否非法,侵犯了 YouTube 內容創作者的版權?不一定,接受采訪的人解釋一下紐約時報。據受訪者稱,因為谷歌也會做同樣的事情——使用 YouTube 視頻的轉錄來訓練自己的人工智能模型——這將保護他們免受巨頭的任何行動的影響。他們補充說,如果谷歌抱怨 OpenAI 的做法,那它就是搬起石頭砸自己的腳,因為它自己的方法將會受到審查。

被問及這一點時,谷歌發言人馬特·布萊恩特(Matt Bryant)向我們的同事解釋說,該公司並不了解 OpenAI 的做法,並且從 YouTube 下載內容未經授權。他繼續說,谷歌只有在有法律依據的情況下才會採取行動。這是否意味著谷歌確實被授權使用 YouTube 用戶數據來為其人工智能模型(視頻平台外部的服務)提供支持?接受美國日報採訪的專家表示,這個問題的答案還遠未明確。儘管存在這些灰色地帶,該行業的公司仍然可能達到現有數據的上限。人工智能所要做的就是創建合成數據,由它們自己創建的數據來超越它——這種方法也在考慮中,但目前還處於起步階段。

👉🏻實時關注科技新聞:將 01net 添加到您的來源谷歌新聞,訂閱我們的頻道WhatsApp或通過視頻關注我們抖音。

來源 : 紐約時報

相關貼文

Galaxy S7:三星將於 2 月 21 日正式發布

Galaxy S7:三星將於 2 月 21 日正式發布

IStorage DiskAshur M2 1 對應 SanDisk Extreme Portable SSD V2 1 對應

IStorage DiskAshur M2 1 對應 SanDisk Extreme Portable SSD V2 1 對應

GPS:歐洲伽利略服務通過首次技術測試

GPS:歐洲伽利略服務通過首次技術測試

iPhone X 可以實現虛擬角色表情捕捉的大眾化

iPhone X 可以實現虛擬角色表情捕捉的大眾化

技術表 德沃洛dLAN 500 AVtriple+ 入門套件

技術表 德沃洛dLAN 500 AVtriple+ 入門套件

YouTube更改介面以調整影片播放速度

YouTube更改介面以調整影片播放速度

iPhone 15:亞馬遜上瘋狂的價格,庫存將飛速上漲 ⚡

iPhone 15:亞馬遜上瘋狂的價格,庫存將飛速上漲 ⚡

法蘭西銀行否認資料洩露,但確認遭到攻擊

法蘭西銀行否認資料洩露,但確認遭到攻擊

Windows:六個月前的零日漏洞可能造成巨大損害

Windows:六個月前的零日漏洞可能造成巨大損害

熱門閱讀

  • 如何在 PowerShell 中取得檔案版本 2024-10-10
  • 如何解決 Windows 更新安裝錯誤 2024-11-11
  • 如何在 UniFi 交換器上啟用連結聚合 (LAG) 2025-01-24
  • 如何修復 iOS 17 中 iPhone 在鎖定畫面上凍結的問題 2024-02-18
  • 下載適用於三星 Galaxy M05 的Google相機 2024-10-18
  • 如何在 iPhone 上設定和使用 iOS 18 聽力控制中心 2025-01-11
  • 提示:在 Firefox 中恢復舊經典清除歷史記錄對話框 2024-07-16
  • 如何加速 Microsoft Edge 在 Windows 11/10 上運作得更快 2024-10-23
  • 如何設定和使用 UniFi VPN 伺服器 2024-09-06
  • 修復音量控制在 Apple TV 4K 遙控器上不起作用的問題 2023-12-19

上升趨勢

  • 地球水的起源可能不像我們想像的那麼複雜 2025-04-17
  • 這不是iPad,但性能很瘋狂,價格便宜2倍 2025-04-18
  • 放開您的iPhone,這個單置13至 2025-04-18
  • Google失去了針對其廣告帝國的審判 2025-04-18
  • 個性化您的三星星係以前從未有過:最終在Google Play上的終極工具 2025-04-18
  • 發現一個新血統:為什麼它可以挽救生命 2025-04-18
  • DeepSeek將在美國取景器中:這是特朗普政府可以宣布的 2025-04-18
  • 01net早晨:最好的“魔術橡皮”,奧迪Q6 e-tron的超級力量,與chatgpt保持友善很昂貴 2025-04-18
  • 橙色後機:Livebox 6已經回來了 2025-04-18
  • iPhone增加了生產,三星取出香檳 2025-04-18

最近發布

  • ChatGPT 現已登陸 Windows 11!這樣您就可以在您的電腦上下載並安裝該應用程式 2024-11-23
  • DeepSeek將不受保護的敏感用戶數據發送給Tiktok的父母 2025-02-08
  • Google 搜尋中隱藏的秘密復活節彩蛋 2023-07-22
  • 2024 年 11 月最佳儲蓄帳戶利率 2024-10-30
  • 在英格蘭最古老、最被低估的城市之一探索“旅遊業的發源地” 2024-10-02
  • Android 16的第一位開發人員預覽介紹了“偶數”功能 2024-11-21
  • 如何使用 Windows 11 照片應用程式放大影像 2024-10-25
  • pCloud Alternatives (2024) 2024-11-04
  • X即將推出自己的智慧電視應用程式:體驗X的新方式! 2024-09-04
  • WhatsApp 發布 3 項新功能以改善語音和視訊通話 2024-12-27

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜