«你捲”,串流媒體服務 Nebula 的老闆 Dave Wiskus 是這樣描述大型人工智慧公司吸走內容創作者的做法的Youtube,沒有任何授權,甚至更少的補償。證據新聞調查,轉達有線,證實 Anthropic、Nvidia、Apple 甚至 Salesforce 使用了從 48,000 多個頻道抽取的 173,536 個 YouTube 影片的字幕。
人工智慧會帶走一切過去的事物
這些公司並沒有直接利用 YouTube 的水龍頭(YouTube 的規則禁止未經授權獲取其平台),而是使用了 EleutherAI 於 2020 年發布的 YouTube 字幕資料庫。在那裡,您可以找到來自非常受歡迎的內容創作者的許多影片的字幕,例如 MrBeast、MKBHD、PewDiePie...,還可以找到主要媒體製作的教育影片和內容(英國廣播公司,華爾街日報, ETC。
Proof News創建了一個線上工具找出這個或那個 YouTube 頻道是否已被盜。對於 Dave Wiskus 來說,未經創作者同意而使用他們的作品是“無禮的»。 «[這些大公司]會利用這些數據來剝削和傷害藝術家嗎?是的,絕對“,他直言不諱地說。
EleutherAI 是一家致力於開發開放且易於訪問的人工智慧的非營利研究組織,該組織解釋說,YouTube 字幕是一個名為 The Pile 的更大的收穫內容資料庫的一部分。它包含來自維基百科、歐洲議會的大量文本,甚至來自安然員工的電子郵件。
The Pile 的很大一部分是每個人都可以存取的,只要他們有足夠的儲存空間和大量的運算能力來利用它。對於這些大型團體來說這不是問題,他們已經確認該資料庫是用於訓練大型語言模型 (LLM) 的資訊的一部分,例如 Apple 的 OpenELM。
這些披露並不令人意外:人工智慧公司訴諸各種計劃來推動他們的法學碩士課程,其中一些接近合法。其中一些受到出版商的攻擊,以“合理使用”甚至引用權為避難所。還有一些人,像是蘋果公司,談論「開放網路」為掠奪網路上發布的內容辯護。
更新 07/18 —蘋果是釋放wood 聲稱其 OpenELM 語言模型並未用於 Apple Intelligence 功能。該法學碩士是為了研究目的而創建的,而且它是發表開源供所有人使用。由於 Apple Intelligence 中不存在 OpenELM,因此 Apple 公司的生成式 AI 功能尚未接受 YouTube 字幕 QED 的訓練。至少在下一次令人尷尬的揭露之前…
來源 : 有線