在受到《紐約時報》以版權為由攻擊 7 天后,OpenAI 宣布正在與其他美國新聞出版商進行談判,以便能夠使用他們的內容來訓練其語言模型。蘋果公司也已採取措施與其他美國媒體談判合約。這些公告是否標誌著人工智慧巨頭的策略轉變,還是顯示了一種簡單的機會主義做法?
徵收後,經濟補償時間?一周後發起起訴紐約時報反對 OpenAI針對侵害著作權的情況,ChatGPT 背後的公司決定改變策略。根據資訊,它將向某些美國媒體提供每年1至500萬美元的用戶許可費。其目標:能夠合法地利用他們的新聞文章來訓練其語言模型。但據我們的同事稱,這筆金額遠遠不能滿足新聞出版商當前的需求,即使對於規模最小的參與者來說也是如此。
OpenAI 智慧財產權主管 Tom Rubin 隨後接受了我們的同事採訪,證實了這個訊息蒲隆地:«我們正在與許多出版商進行多次談判和討論。 (…)他們進展順利」。據經理稱,這些討論涉及十幾家出版商:「您已經看到了宣布的交易,並且將來會有更多“,他強調。
事實上,近幾個月來,該公司與兩家主要出版商達成了共識:去年夏天的美聯社,以及去年12 月的《商業內幕》、《政治》、《圖片報》和《世界報》的母公司阿克塞爾‧施普林格。對於蘋果公司來說,蒂姆庫克的公司也會尋求做同樣的事情,但會更加慷慨,要求也更高。紐約時報幾週前。蘋果公司準備投入更多資金,但在受保護內容的使用方面要求的不僅僅是 OpenAI。她將與康泰納仕 (Condé Nast) 談判達成協議(時尚等紐約客),美國全國廣播公司新聞和國際交流協會(每日野獸報),據我們的同事說。
該行業的公司最初並不擔心版權問題
這些協議的宣布是否標誌著真正的改變方法在 OpenAI 和其他領先的人工智慧公司工作?到目前為止,後者已經透過使用爬行機器人(這些網路瀏覽器機器人)在網路上大量收集數十億數據來開發自己的語言模型。 LLM 需要大量的數據接受培訓。直到最近,這些公司還不會真正關心這些內容背後的人或公司——或者更確切地說,他們覺得自己有權利不去擔心。在收集時,他們的爬蟲不會區分受版權保護的內容和可以自由使用的內容。原因很簡單,因為在網路上,並不總是提到特定的文字或繪圖受版權保護。
這顯然不符合近幾個月來採取行動的出版商、作者和權利持有者的口味。他們起訴該行業的公司侵犯版權,並透過不同的協議阻止文章或作品的收集。後者認為將他們的作品用於培訓目的是一種真正的未經授權的搶劫——而且是無償的,正如《紐約時報》在針對 OpenAI(及其合作夥伴微軟)的行動中所堅持的那樣。美國媒體指責該公司未經授權使用其新聞內容來訓練其生成人工智慧。據《每日報》報道,法學碩士是“透過複製和使用數以百萬計的受版權保護的新聞文章、深入調查、觀點文章、評論、操作指南等每日發布的內容而開發»。
CNN、路透社等紐約媒體也在其網站上封鎖了 OpenAI 的爬蟲類。在法國,聚集了近 90 家線上出版商的 Geste 也建議出版商將“TDM 預訂協議”整合到資訊網站中:“在談判框架內建立許可證的必要先決條件», 在 9 月的新聞稿中寫道該組織。據報道,該工具已被法國多家媒體採用心靈媒體去年10月和11月,在等待談判期間。演員及配音員也試圖提醒公眾輿論和立法者。
誰是對的?法官必須做出決定
面對這股野馬,微軟、谷歌和 Adobe 等該行業的公司最初堅持了自己的立場。如果客戶因使用其人工智慧產品而被起訴侵犯版權,他們會向客戶提供賠償,以安撫客戶。他們還解釋說,由於版權例外,這些數據的使用是合法的。
未來幾個月將判決的法律訴訟的全部問題在於了解這些例外(美國法律中的「合理使用」)是否可以在這種情況下發揮作用。他們是否可以證明未經授權就受保護內容訓練語言模式是合理的?數位法學教授詹姆斯‧格里梅爾曼 (James Grimmelmann) 在接受《紐約時報》採訪時強調,對律師來說,答案並不明確。華盛頓郵報。這位專家表示,版權禁止未經授權對作品進行相同或非常接近的複製。但是,如果涉及創建與第一個作品有足夠不同的新作品,則可以使用受保護的作品。
但對於人工智慧,他向我們的同事解釋說,我們同時面臨兩種情況:幾乎相同的複製——就像當我們要求ChatGPT 以這樣一個作者的風格複製時——以及他使用作品來創造其他東西——就像 ChatGPT 使用同一主題的不同文章來合成它一樣。在這種情況下,美國法院將必須決定人工智慧公司是否必須獲得作者的授權——並支付報酬。
歐洲法律也存在這個問題,該法律規定了語言模型版權的例外。所謂的資料探勘例外也使得無需作者同意即可進行操作,但前提是這是一個研究問題——但這裡的情況並非如此,因為我們確實在處理商業用途。如果人工智慧法案可能會改變這一點該文本對人工智慧開發者在該領域施加了透明度義務,但尚未被採用,而且幾年內都不會應用。
機會主義的做法?
但對其他人來說,如果像 OpenAI 這樣的產業公司開始與權利持有者談判協議,那是因為他們別無選擇。他們需要最新的數據——例如主要媒體的最新文章——以便他們的生成人工智慧能夠為客戶提供適當的回應。然而,隨著網站的封鎖,他們無法再訪問最新的文章。這解釋了為什麼 OpenAI 在上週的新聞稿中指出那個認為自己尊重“內容創作者和所有者的權利”,承諾«與他們合作,使他們從新的收入模式中受益(…)»。
他們將得到多少報酬?涉及的金額尚未正式披露,但我們知道 OpenAI 與 Politico 和 Business Insider 的母公司 Axel Springer 之間達成的協議將以數千萬美元為代價。其他出版商可以選擇盡可能達成最有利可圖的協議,或明智地等待《紐約時報》和 OpenAI 之間訴訟的結果。該案件可能會迫使該公司支付《日報》聲稱的數十億美元的損失,並銷毀 ChatGPT 使用的所有美國媒體數據——對於該公司來說,這項任務被認為是艱鉅且成本高昂的。