AI：Anthropic被指控未經授權收集網站內容

美國人工智慧公司 Claude 推出了 ChatGPT 的競爭對手，該公司被指控不尊重網站的一般使用條件，該網站禁止出於訓練生成人工智慧的目的而收集其內容。另外兩個網站注意到克勞德的探索機器人有明顯的「刮擦」現象。

人擇開發 Claude 的公司是 ChatGPT 的競爭對手之一，它是否樂於挖掘網站來訓練其生成式人工智慧，而不尊重平台的一般使用條件？這就是 iFixit 執行長對他的指控，該公司被描述為“最大的維修資訊庫「線上的。凱爾·維恩斯在他的帳戶上說X7 月 24 日，這家新創公司的爬蟲程式——克勞德的網路瀏覽器機器人——襲擊了其網站的伺服器。24小時內一百萬次»：完全違反其一般使用條件的集合。

後者確實規定“未經 iFixit 事先明確書面許可，嚴禁為任何其他目的（包括訓練機器學習或 AI 模型）複製、拷貝或分發（公司網站）上的任何內容、材料或設計元素」。這些一般條件禁止“抓取”，即提取內容，允許從網站收集數據，然後構成用於訓練語言模型的基礎。

另請閱讀：版權：在創作者、藝術家和人工智慧開發者之間的鬥爭中，我們處於什麼位置？

“您無需付費即可獲取我們的內容，您可以調動我們的開發資源”

«如果這些請求之一存取了我們的服務條款，它會告訴您明確禁止使用我們的內容。（……）“，iFixit 首席執行官凱爾·維恩斯 (Kyle Wiens) 在 X 上澄清道。”您不僅可以免費取得我們的內容，還可以利用我們的開發資源。如果您想就我們的內容的商業用途許可進行對話，我們就在這裡“，他補充道。

iFixit 包含數千個頁面，從維修指南到論壇以及問答：克勞德會大量從中汲取內容。 ” L抓取率如此之高，引發了我們所有的警報並動員了我們的開發團隊»，我們的同事中指定凱爾·維恩斯 (Kyle Wiens)邊緣。在一個幾天前發表的部落格文章，人類解釋說“根據行業標準，（該公司總部位於舊金山，由 OpenAI 前高階主管創立，編者註）使用各種資料來源進行模型開發，例如互聯網上可用的公共數據以及透過網路爬蟲收集的數據»。等 «為了避免被克勞德的機器人探索，必須修改robots.txt文件» 並新增特定的擴展名，新增公司。這些類型的文件通常告訴網路爬蟲他們可以或不能訪問哪些頁面。

iFixit 很快地添加了一個擴充功能。這家專門從事線上修復的公司隨後證實，一旦安裝了這個擴展，Anthropic 爬蟲就停止了。該新創公司的發言人 Jennifer Martinez 接受了採訪邊緣，然後澄清公司尊重“robots.txt 檔案。當 iFixit 實現時，我們的爬蟲尊重了這個訊號」。這意味著網站的條款和條件不足以阻止 Anthropic 的機器人。我們必須明確阻止這種生成人工智慧的“爬蟲”，以避免其資料最終出現在克勞德的訓練資料庫中。

另請閱讀：Anthropic 聲稱擁有對抗 OpenAI 和 Google 的最佳語言模型

修改您的條款和條件將無效

iFixit 的案例遠非孤立：據一位資料來源倡議發表的研究，它呈現為“一群自願投入時間參與數據透明度計畫的獨立研究人員和學者”，許多網站修改了一般使用條件 (CGU)，明確禁止抓取其內容。但這在實務上不會有效，除非有網站想要起訴人工智慧公司。

提問者404媒體該研究的主要作者 Shayne Longpre 澄清說，似乎只有大型平台的條款和條件才受到尊重，即那些可能採取了法律行動的平台。但他補充說，其餘的都被人工智慧公司忽視了。 Read the Docs 和 Freelancer.com 公司的 CEO 聲明稱，Read the Docs 和 Freelancer.com 等公司也遭受了 Anthropic 爬蟲的嚴重抓取，並因此引發了眾多法律訴訟。

另請閱讀：受到《紐約時報》攻擊，OpenAI 要求取得記者的準備文件

雖然人工智慧公司相信他們有權在網路上使用自己的“合理使用» 在美國（版權的例外情況）或在歐洲的資料探勘權，出版商認為這侵犯了他們的版權 - 並且「掠奪」其內容。正在採取法律行動來解決該問題。

🔴為了不錯過01net的任何新聞，請關注我們谷歌新聞等WhatsApp。

“您無需付費即可獲取我們的內容，您可以調動我們的開發資源”

修改您的條款和條件將無效

相關貼文