找到數據,你就能主宰人工智能市場:這種對數據的“追求”,以及遇到的一千零一個法律或實際障礙、Google 和 Meta,這就是紐約時報在 4 月 6 日發表的一篇報導中。我們的同事利用內部會議錄音和匿名證詞解釋了 Meta、OpenAI 和,他們都開發了 Llama、ChatGPT 和,我們面臨著真正的“短缺”。足以引導他們考慮幾種選擇,有時甚至接近合法性,以找到使他們贏得人工智能競賽的因素——即為他們的大型語言模型提供數據,並允許他們學習制定句子、代碼或生成視頻。
這個真正的追求是由美國約翰·霍普金斯大學的物理學家賈里德·卡普蘭 (Jared Kaplan) 於 2020 年 1 月提出的,他現在在。那年,這位科學家在一篇關於人工智能的文章中提出了這樣的觀察:訓練大型語言模型的數據越多,它的效率就會越高——有點像一個學生,通過讀很多書,變得更有文化。
儘管該行業的公司一致接受這一原則,但他們面臨著一個主要問題:相關數據既不能自由訪問,也不能不受限制。去年五月認識到的一點,OpenAI 的負責人。在一次會議上,這位經理承認,人工智能公司需要越來越多的數據,很快就會“耗盡”互聯網上所有可用的數據——例如新聞文章、論壇上的觀點或消息、維基百科文章、照片、播客、視頻以及某些作品。
其他人也得出了這個結論,例如研究機構 Epoch,根據該研究,公司最早可以在 2026 年耗盡互聯網上的“高質量”數據——這是來自專業人士撰寫的書籍或文章的數據。換句話說,開發人工智能的公司使用數據的速度會比數據產生的速度快。
在 Meta:2023 年 3 月和 4 月的危機會議上尋找數據
如何解決這個問題呢?幾個月來,該行業的公司一直在考慮不同的解決方案,從 Meta 開始。紐約時報。 2023 年初,馬克·扎克伯格 (Mark Zuckerberg) 的團隊可能會注意到,他們不再擁有足夠的數據來組建法學碩士課程。根據一名員工與我們同事分享的內部會議記錄,這一觀察是由艾哈邁德·阿爾-達勒(Ahmad Al-Dahle)做出的。 Meta 的生成人工智能副總裁表示,他的團隊幾乎使用了網絡上所有英文書籍、論文、詩歌和新聞文章。然而,據報導 Ahmad Al-Dahle 解釋說,如果沒有額外的數據,Meta 將無法與 ChatGPT 競爭,除非它獲得更多數據。
2023 年 3 月和 4 月,會議將相繼召開,以找出如何從 Meta 的鞋子上取出這塊石頭的方法。在 Facebook 和 Instagram 的母公司內部,我們首先考慮收購出版社 Simon & Schuster。目標是:根據美國媒體可以訪問的內部會議記錄,獲得長篇作品。據稱,Meta 員工隨後討論了網絡上受版權保護作品的使用,以及與出版商、藝術家、音樂家和媒體機構的許可談判。但在內部,我們會覺得最後一步會花費太長的時間,導致 Meta 在這場人工智能競賽中遠遠落後。據報導,一名律師在其中一次會議上警告“道德問題» 未經授權而使用藝術家和作者的知識產權。我們的同事解釋說,他的警報之後就會是沉默,並支持會議錄音。
最終,這就是我們會選擇的選項。據報導,該組織的律師解釋說,應該考慮從網絡收集數據,以便訓練人工智能模型“合理使用”。美國版權法的這一例外允許在某些情況下使用受版權保護的作品——但這種用於訓練人工智能的案例尚未得到美國法院的裁決。對於藝術家和作家來說,這種使用是真正的“掠奪» 必須停止並給予補償。面對我們同事的質疑,梅塔解釋說,他“進行了積極的投資» 將人工智能集成到其服務中。該組織補充說,它在 Instagram 和 Facebook 上公開分享了數十億張圖像和視頻來訓練其模型。
另請閱讀:你
但對於代表矽谷風險投資公司的律師 Sy Damle 來說,依賴受版權保護但可通過網絡訪問的數據是“這些工具(人工智能,編者註)存在的唯一實用方法» – 該行業的公司經常提出的一個論點。這些生成式人工智能必須提供“接受大量數據的培訓,而無需支付該數據的許可證費用»,這位律師去年在關於版權和人工智能模型的公開討論中解釋道,我們的同事也對此表示贊同。 “所需數據海量,集體許可也確實行不通“,他補充道。
另請閱讀:
在 Google:使用 YouTube 視頻
就谷歌而言,它可以通過使用其平台之一來彌補這一短缺:YouTube。據稱,他將 YouTube 視頻轉錄成文本,然後用文本來訓練他的人工智能模型,“五名熟悉公司慣例的人» 受到我們同事的質疑。據報導,去年 7 月,這家巨頭還改變了其免費消費者應用程序(如 Google Sheets 或 Google Doc)的使用條件。其目標:將公開用戶數據的使用擴展到 Bard(以前稱為 Gemini),其生成人工智能指定了紐約時報。
但據谷歌發言人稱,這是沒有用的“沒有明確許可» 用戶,參考允許他們測試某些實驗功能的自願計劃。其人工智能模型“接受過一些 YouTube 內容的培訓»,這將在與 YouTube 內容創作者達成的協議框架內獲得授權,”他向我們的同事補充道。
在 OpenAI,研究人員首先使用計算機代碼存儲庫 GitHub 等數據,或 Quizlet 網站上描述高中考試和作業的數據。但從 2021 年 12 月開始,該行業領先者面臨著同樣的短缺:沒有更多數據可用。然後,開發 GPT-4 的團隊會考慮不同的選擇:創建合成數據(由人工智能係統創建)、將播客或 YouTube 視頻轉錄為寫作或購買收集了大量數字化數據的初創公司。最後,據我們同事採訪的六位人士透露,OpenAI 選擇了 Whisper,這是一種可以以書面形式轉錄 YouTube 視頻和播客的工具。
如果這家美國公司指出 YouTube 禁止“任何自動化手段(例如機器人或刮刀)» 在他的視頻中,由於“合理使用»,根據我們同事收集的證詞,OpenAI 團隊認為這是美國版權法的例外。
OpenAI 對 YouTube 視頻的使用是否非法,侵犯了 YouTube 內容創作者的版權?不一定,接受采訪的人解釋一下紐約時報。據受訪者稱,因為谷歌也會做同樣的事情——使用 YouTube 視頻的轉錄來訓練自己的人工智能模型——這將保護他們免受巨頭的任何行動的影響。他們補充說,如果谷歌抱怨 OpenAI 的做法,那它就是搬起石頭砸自己的腳,因為它自己的方法將會受到審查。
被問及這一點時,谷歌發言人馬特·布萊恩特(Matt Bryant)向我們的同事解釋說,該公司並不了解 OpenAI 的做法,並且從 YouTube 下載內容未經授權。他繼續說,谷歌只有在有法律依據的情況下才會採取行動。這是否意味著谷歌確實被授權使用 YouTube 用戶數據來為其人工智能模型(視頻平台外部的服務)提供支持?接受美國日報採訪的專家表示,這個問題的答案還遠未明確。儘管存在這些灰色地帶,該行業的公司仍然可能達到現有數據的上限。人工智能所要做的就是創建合成數據,由它們自己創建的數據來超越它——這種方法也在考慮中,但目前還處於起步階段。
來源 : 紐約時報








