開發 ChatGPT 的公司採納了人工智慧領域已經捍衛的論點:如果沒有受版權保護的內容,生成式人工智慧系統將不會那麼高效,甚至不會存在。問題:該公司不打算放棄受版權保護的內容,也不打算向所有作品被用來訓練人工智慧的創作者付費。讓作家、藝術家和權利持有者非常沮喪。
開放人工智慧他想要兩全其美嗎?在一個向英國議會傳達的文件,該公司一方面估計,這將是“不可能的» 開發像 GPT-4 這樣的大型語言模型——其對話代理背後的技術——不使用受版權保護的作品。另一方面,該公司主張維持現狀。根據後者的說法,人工智慧開發人員在其係統在受保護資料上進行訓練時無需支付許可證費用或請求授權,但有少數例外。
該文本日期為 12 月 5 日,但被電訊報1 月 7 日星期日,這是對英國議會上院上議院通信和數位委員會對主要語言模型進行的調查的回應。 OpenAI 解釋說,如果人工智慧開發人員將自己限制在公共領域內容,將會導致人工智慧系統品質較低。 “將訓練資料限制在一個多世紀前創建的公共領域書籍和繪圖可能會是一個有趣的實驗,但不會提供滿足當今公民需求的人工智慧系統»,該公司寫道。自 2022 年 11 月推出 ChatGPT 以來,這家人工智慧巨頭從未像其競爭對手那樣發布過用於訓練其生成式人工智慧系統的詳盡數據清單。
但我們知道 ChatGPT 和圖像生成人工智慧系統是根據來自網路的數十億資料進行訓練的,其中一些資料受到版權或版權法的保護。原則上,任何對這些數據的使用都必須得到作者的授權,但 OpenAI 和其他人工智慧巨頭也有例外——包括“合理使用» 美國法律中的「合理使用」。
“事後很久現在實施前所未有的許可製度將會造成混亂”
如果 OpenAI 在其文件中重複“從法律上講,版權法並不禁止培訓»(人工智慧系統)——美國法院必須對此做出裁決——該公司白紙黑字地寫道,「如果不使用受版權保護的內容,(無論如何)不可能訓練目前的人工智慧系統」。尤其 ”因為今天的版權幾乎涵蓋了所有形式的人類表達——包括部落格文章、照片、論壇貼文、軟體程式碼片段和政府文件»,該公司補充道。
因此,OpenAI 表示,它已在其人工智慧系統中使用了受保護的內容,這也是人工智慧巨頭幾個月前在美國辯護的部分論點。根據他們的請求,如果我們不能再使用受版權保護的所有內容,那麼將不再有生成式人工智慧(同樣有效率)。去年10月,在美國版權局的公眾諮詢中,產業領袖發表了評論,為這個想法進行了辯護。
馬克·祖克柏的團隊也開發了他的法學碩士(LLaMA),寫道以及所有美國人工智慧產業基於這樣的理念:(美國)版權法不禁止使用受版權保護的內容。正確的 d'作者訓練模型d'IA»。該公司走得更遠: «現在實施(許可)制度,事後很久,會造成混亂。因為開發者將尋求識別數以百萬計的權利持有者,而利潤卻微乎其微,考慮到訓練集 Al 中任何一項作品的重要性,任何公平的特許權使用費都將非常小。」。部分推理由Yann Le CunMeta 人工智慧研究總監接受採訪迴音去年11月16日。這位被認為是人工智慧之父之一的人認為版權可能會阻止人工智慧的發展。
“在欺騙了所有被你竊取資料的人之後,OpenAI 要求(…)通行證”
OpenAI 提出的論點讓藝術家 Jon Lam 非常惱火,他呼籲 AI 產業尊重版權。後者寫道,他的領英帳戶: «我們不要忘記,去年這些生成式人工智慧公司,如 Midjourney、Stable Diffusion 等。告訴我們他們的數據是道德的,他們沒有接受我們的作品或任何版權的培訓“,他感嘆道。後者補充道:「在欺騙了所有被你竊取資料的人之後,OpenAI 要求版權例外。 (…),通過。不,不,在導致世界各地藝術家、作家和程式設計師大規模裁員之後»,他鏟球。
幾個月來,創作者或權利持有者公司針對 Stable Diffusion、Stability AI、Anthropic 和 OpenAI 提出了大量投訴。 2023 年 9 月,17 位作者攻擊了後者公司,認為它已經證明了的一個“大規模系統性竊盜»。對某些人來說,訓練人工智慧的工作相當於真正掠奪他們的創造物– 除了開發可以與他們競爭的工具之外。
最新加入不滿陣營的:《紐約時報》認為 OpenAI 非法使用其文章來產生文本。為了為自己辯護,OpenAI 發表了一篇長篇博文,辯稱《紐約時報》的訴訟毫無根據。
在提交給英國議會的論點中,該公司懇求(英國)版權法不要改變,並回顧說,網站現在可以阻止用於提取內容以進行培訓的索引機器人。該公司補充說,它正在與某些美國新聞出版商達成協議,同時相信“在支持和賦權創作者方面仍有工作要做s」…不確定這是否能說服主要利害關係人。
來源 : 電訊報