«你卷»,這就是星雲流服務的老闆戴夫·威斯科斯(Dave WiskusYoutube,沒有任何授權,甚至更少的薪酬。證明新聞調查,由有線,確認人類,Nvidia,Apple甚至Salesforce操作了超過48,000個頻道的173,536個siphoned YouTube視頻的字幕。
AIS拿走一切
這些公司沒有直接連接到YouTube Tap(其規則禁止未經授權收集其平台的收穫),他們使用了Eletherai於2020年出版的字幕YouTube數據庫。有許多非常受歡迎內容的創建者的視頻的字幕,例如Mrbeast,Mkbhd,Pewdiepie ...以及主要媒體製作的教育視頻和內容(英國廣播公司,,,,WSJ, ETC。)。
證明新聞創造了一個在線工具找出這個或YouTube頻道是否已被掠奪。對於Dave Wiskus而言,未經創作者的工作是“不尊重»。 «這些大公司會使用這些數據來利用和損害藝術家嗎?是的,絕對他坦率地說。
致力於開發開放且可訪問的AI的非營利性研究組織Eleutherai解釋說,YouTube字幕是一個更重要的收穫數據庫的一部分,稱為堆。它包含來自維基百科,歐洲議會甚至安然僱員的大量文字。
只要您擁有足夠的存儲空間和大量的計算能力,每個人都可以使用大部分堆。對於這些大型群體來說,這不是問題,這些群體證實了該數據庫是用於培訓其大型語言模型(LLM)的信息之一,例如Apple的OpenElm。
這些啟示並不奇怪:IA公司使用各種梳子來餵養其LLM,其中一些在合法性的邊界。其中一些人受到出版商的攻擊,在“公平用戶”或引用權利後面避難。還有其他人,例如蘋果“打開網絡”以證明在互聯網上發布的內容的掠奪是合理的。
更新18/07-蘋果是出去伍德說,其OpenElm語言模型不用於Apple Intelligence的功能。此LLM是為了研究而創建的,此外出版在每個可用的開源中。 OpenElm不存在於Apple Intelligence中,Apple公司的生成功能未接受YouTube字幕CQFD培訓。至少直到下一個令人尷尬的啟示為止...
來源 : 有線