美國人工智慧公司 Claude 推出了 ChatGPT 的競爭對手,該公司被指控不尊重網站的一般使用條件,該網站禁止出於訓練生成人工智慧的目的而收集其內容。另外兩個網站注意到克勞德的探索機器人有明顯的「刮擦」現象。
人擇開發 Claude 的公司是 ChatGPT 的競爭對手之一,它是否樂於挖掘網站來訓練其生成式人工智慧,而不尊重平台的一般使用條件?這就是 iFixit 執行長對他的指控,該公司被描述為“最大的維修資訊庫「 線上的。凱爾·維恩斯在他的帳戶上說X7 月 24 日,這家新創公司的爬蟲程式——克勞德的網路瀏覽器機器人——襲擊了其網站的伺服器。24小時內一百萬次»:完全違反其一般使用條件的集合。
後者確實規定“未經 iFixit 事先明確書面許可,嚴禁為任何其他目的(包括訓練機器學習或 AI 模型)複製、拷貝或分發(公司網站)上的任何內容、材料或設計元素」。這些一般條件禁止“抓取”,即提取內容,允許從網站收集數據,然後構成用於訓練語言模型的基礎。
“您無需付費即可獲取我們的內容,您可以調動我們的開發資源”
«如果這些請求之一存取了我們的服務條款,它會告訴您明確禁止使用我們的內容。 (……)“,iFixit 首席執行官凱爾·維恩斯 (Kyle Wiens) 在 X 上澄清道。”您不僅可以免費取得我們的內容,還可以利用我們的開發資源。如果您想就我們的內容的商業用途許可進行對話,我們就在這裡“,他補充道。
iFixit 包含數千個頁面,從維修指南到論壇以及問答:克勞德會大量從中汲取內容。 ” L抓取率如此之高,引發了我們所有的警報並動員了我們的開發團隊»,我們的同事中指定凱爾·維恩斯 (Kyle Wiens)邊緣。在一個幾天前發表的部落格文章,人類解釋說“根據行業標準,(該公司總部位於舊金山,由 OpenAI 前高階主管創立,編者註)使用各種資料來源進行模型開發,例如互聯網上可用的公共數據以及透過網路爬蟲收集的數據»。等 «為了避免被克勞德的機器人探索,必須修改robots.txt文件» 並新增特定的擴展名,新增公司。這些類型的文件通常告訴網路爬蟲他們可以或不能訪問哪些頁面。
iFixit 很快地添加了一個擴充功能。這家專門從事線上修復的公司隨後證實,一旦安裝了這個擴展,Anthropic 爬蟲就停止了。該新創公司的發言人 Jennifer Martinez 接受了採訪邊緣,然後澄清公司尊重“robots.txt 檔案。當 iFixit 實現時,我們的爬蟲尊重了這個訊號」。這意味著網站的條款和條件不足以阻止 Anthropic 的機器人。我們必須明確阻止這種生成人工智慧的“爬蟲”,以避免其資料最終出現在克勞德的訓練資料庫中。
修改您的條款和條件將無效
iFixit 的案例遠非孤立:據一位資料來源倡議發表的研究,它呈現為“一群自願投入時間參與數據透明度計畫的獨立研究人員和學者”,許多網站修改了一般使用條件 (CGU),明確禁止抓取其內容。但這在實務上不會有效,除非有網站想要起訴人工智慧公司。
提問者404媒體該研究的主要作者 Shayne Longpre 澄清說,似乎只有大型平台的條款和條件才受到尊重,即那些可能採取了法律行動的平台。但他補充說,其餘的都被人工智慧公司忽視了。 Read the Docs 和 Freelancer.com 公司的 CEO 聲明稱,Read the Docs 和 Freelancer.com 等公司也遭受了 Anthropic 爬蟲的嚴重抓取,並因此引發了眾多法律訴訟。
雖然人工智慧公司相信他們有權在網路上使用自己的“合理使用» 在美國(版權的例外情況)或在歐洲的資料探勘權,出版商認為這侵犯了他們的版權 - 並且「掠奪」其內容。正在採取法律行動來解決該問題。