AI：OpenAI、Google、Meta的結合克服數據短缺

找到數據，你就能主宰人工智能市場：這種對數據的“追求”，以及遇到的一千零一個法律或實際障礙、Google 和 Meta，這就是紐約時報在 4 月 6 日發表的一篇報導中。我們的同事利用內部會議錄音和匿名證詞解釋了 Meta、OpenAI 和，他們都開發了 Llama、ChatGPT 和，我們面臨著真正的“短缺”。足以引導他們考慮幾種選擇，有時甚至接近合法性，以找到使他們贏得人工智能競賽的因素——即為他們的大型語言模型提供數據，並允許他們學習制定句子、代碼或生成視頻。

這個真正的追求是由美國約翰·霍普金斯大學的物理學家賈里德·卡普蘭 (Jared Kaplan) 於 2020 年 1 月提出的，他現在在。那年，這位科學家在一篇關於人工智能的文章中提出了這樣的觀察：訓練大型語言模型的數據越多，它的效率就會越高——有點像一個學生，通過讀很多書，變得更有文化。

儘管該行業的公司一致接受這一原則，但他們面臨著一個主要問題：相關數據既不能自由訪問，也不能不受限制。去年五月認識到的一點，OpenAI 的負責人。在一次會議上，這位經理承認，人工智能公司需要越來越多的數據，很快就會“耗盡”互聯網上所有可用的數據——例如新聞文章、論壇上的觀點或消息、維基百科文章、照片、播客、視頻以及某些作品。

其他人也得出了這個結論，例如研究機構 Epoch，根據該研究，公司最早可以在 2026 年耗盡互聯網上的“高質量”數據——這是來自專業人士撰寫的書籍或文章的數據。換句話說，開發人工智能的公司使用數據的速度會比數據產生的速度快。

在 Meta：2023 年 3 月和 4 月的危機會議上尋找數據

如何解決這個問題呢？幾個月來，該行業的公司一直在考慮不同的解決方案，從 Meta 開始。紐約時報。 2023 年初，馬克·扎克伯格 (Mark Zuckerberg) 的團隊可能會注意到，他們不再擁有足夠的數據來組建法學碩士課程。根據一名員工與我們同事分享的內部會議記錄，這一觀察是由艾哈邁德·阿爾-達勒（Ahmad Al-Dahle）做出的。 Meta 的生成人工智能副總裁表示，他的團隊幾乎使用了網絡上所有英文書籍、論文、詩歌和新聞文章。然而，據報導 Ahmad Al-Dahle 解釋說，如果沒有額外的數據，Meta 將無法與 ChatGPT 競爭，除非它獲得更多數據。

2023 年 3 月和 4 月，會議將相繼召開，以找出如何從 Meta 的鞋子上取出這塊石頭的方法。在 Facebook 和 Instagram 的母公司內部，我們首先考慮收購出版社 Simon & Schuster。目標是：根據美國媒體可以訪問的內部會議記錄，獲得長篇作品。據稱，Meta 員工隨後討論了網絡上受版權保護作品的使用，以及與出版商、藝術家、音樂家和媒體機構的許可談判。但在內部，我們會覺得最後一步會花費太長的時間，導致 Meta 在這場人工智能競賽中遠遠落後。據報導，一名律師在其中一次會議上警告“道德問題» 未經授權而使用藝術家和作者的知識產權。我們的同事解釋說，他的警報之後就會是沉默，並支持會議錄音。

最終，這就是我們會選擇的選項。據報導，該組織的律師解釋說，應該考慮從網絡收集數據，以便訓練人工智能模型“合理使用”。美國版權法的這一例外允許在某些情況下使用受版權保護的作品——但這種用於訓練人工智能的案例尚未得到美國法院的裁決。對於藝術家和作家來說，這種使用是真正的“掠奪» 必須停止並給予補償。面對我們同事的質疑，梅塔解釋說，他“進行了積極的投資» 將人工智能集成到其服務中。該組織補充說，它在 Instagram 和 Facebook 上公開分享了數十億張圖像和視頻來訓練其模型。

另請閱讀：你

但對於代表矽谷風險投資公司的律師 Sy Damle 來說，依賴受版權保護但可通過網絡訪問的數據是“這些工具（人工智能，編者註）存在的唯一實用方法» – 該行業的公司經常提出的一個論點。這些生成式人工智能必須提供“接受大量數據的培訓，而無需支付該數據的許可證費用»，這位律師去年在關於版權和人工智能模型的公開討論中解釋道，我們的同事也對此表示贊同。 “所需數據海量，集體許可也確實行不通“，他補充道。

另請閱讀：

在 Google：使用 YouTube 視頻

就谷歌而言，它可以通過使用其平台之一來彌補這一短缺：YouTube。據稱，他將 YouTube 視頻轉錄成文本，然後用文本來訓練他的人工智能模型，“五名熟悉公司慣例的人» 受到我們同事的質疑。據報導，去年 7 月，這家巨頭還改變了其免費消費者應用程序（如 Google Sheets 或 Google Doc）的使用條件。其目標：將公開用戶數據的使用擴展到 Bard（以前稱為 Gemini），其生成人工智能指定了紐約時報。

但據谷歌發言人稱，這是沒有用的“沒有明確許可» 用戶，參考允許他們測試某些實驗功能的自願計劃。其人工智能模型“接受過一些 YouTube 內容的培訓»，這將在與 YouTube 內容創作者達成的協議框架內獲得授權，”他向我們的同事補充道。

在 OpenAI，研究人員首先使用計算機代碼存儲庫 GitHub 等數據，或 Quizlet 網站上描述高中考試和作業的數據。但從 2021 年 12 月開始，該行業領先者面臨著同樣的短缺：沒有更多數據可用。然後，開發 GPT-4 的團隊會考慮不同的選擇：創建合成數據（由人工智能係統創建）、將播客或 YouTube 視頻轉錄為寫作或購買收集了大量數字化數據的初創公司。最後，據我們同事採訪的六位人士透露，OpenAI 選擇了 Whisper，這是一種可以以書面形式轉錄 YouTube 視頻和播客的工具。

如果這家美國公司指出 YouTube 禁止“任何自動化手段（例如機器人或刮刀）» 在他的視頻中，由於“合理使用»，根據我們同事收集的證詞，OpenAI 團隊認為這是美國版權法的例外。

OpenAI 對 YouTube 視頻的使用是否非法，侵犯了 YouTube 內容創作者的版權？不一定，接受采訪的人解釋一下紐約時報。據受訪者稱，因為谷歌也會做同樣的事情——使用 YouTube 視頻的轉錄來訓練自己的人工智能模型——這將保護他們免受巨頭的任何行動的影響。他們補充說，如果谷歌抱怨 OpenAI 的做法，那它就是搬起石頭砸自己的腳，因為它自己的方法將會受到審查。

被問及這一點時，谷歌發言人馬特·布萊恩特（Matt Bryant）向我們的同事解釋說，該公司並不了解 OpenAI 的做法，並且從 YouTube 下載內容未經授權。他繼續說，谷歌只有在有法律依據的情況下才會採取行動。這是否意味著谷歌確實被授權使用 YouTube 用戶數據來為其人工智能模型（視頻平台外部的服務）提供支持？接受美國日報採訪的專家表示，這個問題的答案還遠未明確。儘管存在這些灰色地帶，該行業的公司仍然可能達到現有數據的上限。人工智能所要做的就是創建合成數據，由它們自己創建的數據來超越它——這種方法也在考慮中，但目前還處於起步階段。

👉🏻實時關注科技新聞：將 01net 添加到您的來源谷歌新聞，訂閱我們的頻道WhatsApp或通過視頻關注我們抖音。

來源：紐約時報

在 Meta：2023 年 3 月和 4 月的危機會議上尋找數據

在 Google：使用 YouTube 視頻

相關貼文