根據《紐約時報》報道,在一個數據既不公開訪問也不不受限制的世界中尋找數據以贏得人工智慧競賽:這是該行業這三家公司面臨的難題。可以考慮不同的方法,例如重新購買資料庫、轉錄影片或播客,或在未經授權的情況下使用受版權保護的資料。
找到數據,你就能主宰人工智慧市場:這種對數據的“追求”,以及遇到的一千零一個法律或實際障礙開放人工智慧、Google 和 Meta,這就是紐約時報在 4 月 6 日發表的一篇報道中。我們的同事利用內部會議錄音和匿名證詞解釋了 Meta、OpenAI 和Google,他們都發展了 Llama、ChatGPT 和雙子座,我們面臨著真正的“短缺」。足以引導他們考慮多種選擇,有時甚至接近合法性,以找到使他們贏得人工智能競賽的因素,即為大型語言模型提供數據,並讓這些最後的語言模型能夠學習如何表達句子、代碼或生成視頻。
這項真正的追求是由美國約翰霍普金斯大學的物理學家賈里德卡普蘭 (Jared Kaplan) 於 2020 年 1 月提出的,他現在就職於人擇。當年,這位科學家在一篇關於人工智慧的文章中做出了這樣的觀察:訓練大型語言模型的數據越多,效率就越高——有點像一個學生,讀了很多書,就培養了更多的知識。
儘管該行業的公司一致接受這項原則,但他們面臨一個主要問題:相關數據既不能自由訪問,也不能不受限制。去年五月所認識的一點薩姆·奧特曼,OpenAI 的負責人。在一次會議上,這位經理承認,人工智慧公司需要越來越多的數據,很快就會「耗盡」網路上所有可用的數據——例如新聞文章、論壇上的觀點或訊息、維基百科文章、照片、播客、影片、還有一些作品。
其他人也得出了這一結論,例如研究機構 Epoch,根據該研究,公司最早可以在 2026 年耗盡網路上的「高品質」數據——這是來自專業人士撰寫的書籍或文章的數據。換句話說,開發人工智慧的公司使用資料的速度會比資料產生的速度快。
在 Meta:2023 年 3 月和 4 月的危機會議上尋找數據
如何解決這個問題呢?幾個月來,該行業的公司一直在考慮不同的解決方案,從 Meta 開始。紐約時報。 2023 年初,馬克‧祖克柏 (Mark Zuckerberg) 的團隊可能會注意到,他們不再有足夠的數據來組成法學碩士課程。根據一名員工與我們同事分享的內部會議記錄,這項觀察是艾哈邁德·阿爾-達勒 (Ahmad Al-Dahle) 做出的。 Meta 的生成人工智慧副總裁表示,他的團隊幾乎使用了網路上所有英文書籍、論文、詩歌和新聞文章。然而,據報導 Ahmad Al-Dahle 解釋說,如果沒有額外的數據,Meta 將無法與 ChatGPT 競爭,除非它獲得更多數據。
2023 年 3 月和 4 月,會議將相繼召開,找出如何從 Meta 的鞋子上取出這塊石頭的方法。在 Facebook 和 Instagram 的母公司內部,我們首先考慮收購出版社 Simon & Schuster。目標是:根據美國媒體可以存取的內部會議記錄,獲得長篇作品。據稱,Meta 員工隨後討論了網路上受版權保護作品的使用,以及與出版商、藝術家、音樂家和媒體機構的許可談判。但在內部,我們會覺得最後一步會花費太長的時間,導致 Meta 在這場人工智慧競賽中遠遠落後。據報道,一名律師在其中一次會議上警告“道德問題» 未經授權與使用藝術家和作者的知識產權相關。我們的同事解釋說,他的警報之後就會是沉默,並支持會議錄音。
最終,這就是我們會選擇的選項。據報道,該組織的律師解釋說,應該考慮從網路收集數據,以便訓練人工智慧模型“合理使用」。美國版權法的這一例外允許在某些情況下使用受版權保護的作品,但美國法院尚未就訓練人工智慧的案件做出裁決。對於藝術家和作家來說,這種使用是真正的“掠奪» 必須停止並給予補償。面對我們同事的質疑,梅塔解釋說,他“進行了積極的投資» 將人工智慧整合到其服務中。該組織補充說,它在 Instagram 和 Facebook 上公開分享了數十億張圖像和影片來訓練其模型。
另請閱讀:你偉大的「數位掠奪」:當生成式人工智慧挑戰版權時
但對於代表矽谷創投公司的律師 Sy Damle 來說,依賴受版權保護但可透過網路存取的資料是“這些工具(人工智慧,編者註)存在的唯一實用方法» – 該行業的公司經常提出的一個論點。這些生成式人工智慧必須提供“接受大量數據的培訓,而無需支付該數據的許可證費用»,這位律師去年在關於版權和人工智慧模型的公開討論中解釋道,我們的同事也對此表示贊同。 “所需數據海量,集體許可實在不行“,他補充道。
在 Google:使用 YouTube 視頻
就谷歌而言,它可以透過使用其平台之一來彌補這一短缺:YouTube。據稱,他將 YouTube 影片轉錄成文本,然後用文本來訓練他的人工智慧模型,“五名熟悉公司慣例的人» 受到我們同事的質疑。據報道,去年 7 月,這家巨頭還改變了其免費消費者應用程式(如 Google Sheets 或 Google Doc)的使用條件。其目標:將公開用戶資料的使用擴展到 Bard(以前稱為 Gemini),其生成人工智慧指定了紐約時報。
但據谷歌發言人稱,這是沒有用的“未經明確許可» 用戶,參考允許他們測試某些實驗功能的自願計畫。其人工智慧模型“接受過一些 YouTube 內容的培訓»,這將在與 YouTube 內容創作者達成的協議框架內獲得授權,」他向我們的同事補充道。
OpenAI 會選擇影片的書面轉錄
在 OpenAI,研究人員首先使用電腦程式碼儲存庫 GitHub 等數據,或 Quizlet 網站上描述高中考試和作業的數據。但從 2021 年 12 月開始,該行業領導者面臨同樣的短缺:沒有更多數據可用。開發 GPT-4 的團隊會考慮不同的選擇:創建合成資料(由人工智慧系統創建)、將播客或 YouTube 影片轉錄為寫作或購買收集了大量數位化資料的新創公司。最後,根據我們同事採訪的六位人士透露,OpenAI 選擇了 Whisper,這是一種可以以書面形式轉錄 YouTube 影片和播客的工具。
如果這家美國公司指出 YouTube 禁止“任何自動化手段(例如機器人或刮刀)» 在他的影片中,由於“合理使用»,根據我們同事收集的證詞,OpenAI 團隊認為這是美國版權法的例外。
OpenAI 對 YouTube 影片的使用是否非法,侵犯了 YouTube 內容創作者的版權?不一定,受訪的人解釋一下紐約時報。據受訪者稱,因為谷歌也會做同樣的事情——使用 YouTube 影片的轉錄來訓練自己的人工智慧模型——這將保護他們免受巨頭採取任何行動的影響。他們補充說,如果谷歌抱怨 OpenAI 的做法,那它就是搬起石頭砸自己的腳,因為它自己的方法將會受到審查。
當被問及這一點時,Google發言人 Matt Bryant(Matt Bryant)向我們的同事解釋說,該公司並不了解 OpenAI 的做法,並且從 YouTube 下載內容未經授權。他繼續說,谷歌只有在有法律依據的情況下才會採取行動。這是否意味著谷歌確實被授權使用 YouTube 用戶資料來為其人工智慧模型(影片平台外部的服務)提供支援?接受美國日報採訪的專家表示,這個問題的答案還遠遠不清楚。儘管存在這些灰色地帶,該行業的公司仍然可能達到現有數據的上限。人工智慧要做的就是創建合成數據,由它們自己創建的數據來超越它——這種方法也在考慮中,但目前還處於起步階段。
來源 : 紐約時報