AI：Anthropic被指控未经授权收集网站内容

美国人工智能公司 Claude 推出了 ChatGPT 的竞争对手，该公司被指控不尊重网站的一般使用条件，该网站禁止出于训练生成人工智能的目的而收集其内容。另外两个网站注意到克劳德的探索机器人有明显的“刮擦”现象。

人择开发 Claude 的公司是 ChatGPT 的竞争对手之一，它是否乐于挖掘网站来训练其生成式人工智能，而不尊重平台的一般使用条件？这就是 iFixit 首席执行官对他的指控，该公司被描述为“最大的维修信息库“ 在线的。凯尔·维恩斯在他的账户上说X7 月 24 日，这家初创公司的爬虫 Claude 的 Web explorer 机器人攻击了其网站的服务器”24小时内一百万次»：完全违反其一般使用条件的集合。

后者确实规定“未经 iFixit 事先明确书面许可，严禁出于任何其他目的（包括训练机器学习或 AI 模型）复制、拷贝或分发（公司网站）上的任何内容、材料或设计元素”。这些一般条件禁止“抓取”，即提取内容，允许从网站收集数据，然后构成用于训练语言模型的基础。

另请阅读：版权：在创作者、艺术家和人工智能开发者之间的斗争中，我们处于什么位置？

“您无需付费即可获取我们的内容，您可以调动我们的开发资源”

«如果这些请求中的任何一个访问了我们的服务条款，他们会告诉您明确禁止使用我们的内容。（……）“，iFixit 首席执行官凯尔·维恩斯 (Kyle Wiens) 在 X 上澄清道。“您不仅可以免费获取我们的内容，还可以利用我们的开发资源。如果您想就我们的内容的商业用途许可进行对话，我们就在这里“，他补充道。

iFixit 包含数千个页面，从维修指南到论坛以及问答：克劳德会大量从中汲取内容。 ” L抓取率如此之高，引发了我们所有的警报并动员了我们的开发团队»，我们的同事中指定凯尔·维恩斯 (Kyle Wiens)边缘。在一个几天前发表的博客文章，人类解释说“根据行业标准，（该公司总部位于旧金山，由 OpenAI 前高管创立，编者注）使用各种数据源进行模型开发，例如互联网上可用的公共数据以及通过网络爬虫收集的数据»。等 «为了避免被克劳德的机器人探索，必须修改robots.txt文件» 并添加特定的扩展名，添加公司。这些类型的文件通常告诉网络爬虫他们可以或不能访问哪些页面。

iFixit 很快添加了一个扩展。这家专门从事在线修复的公司随后证实，一旦安装了这个扩展，Anthropic 爬虫就停止了。该初创公司的发言人 Jennifer Martinez 接受了采访边缘，然后澄清公司尊重“robots.txt 文件。当 iFixit 实现时，我们的爬虫尊重了这个信号”。这意味着网站的条款和条件不足以阻止 Anthropic 的机器人。我们必须明确阻止这种生成人工智能的“爬虫”，以避免其数据最终出现在克劳德的训练数据库中。

另请阅读：Anthropic 声称拥有对抗 OpenAI 和 Google 的最佳语言模型

修改您的条款和条件将无效

iFixit 的案例远非孤立：据一位数据来源倡议发表的研究，它呈现为“一群自愿投入时间参与数据透明度项目的独立研究人员和学者”，许多网站修改了一般使用条件 (CGU)，明确禁止抓取其内容。但这在实践中不会有效，除非有网站想要起诉人工智能公司。

提问者404媒体该研究的主要作者 Shayne Longpre 澄清说，似乎只有大型平台的条款和条件才受到尊重，即那些可能采取了法律行动的平台。但他补充说，其余的都被人工智能公司忽视了。 Read the Docs 和 Freelancer.com 公司的 CEO 声明称，Read the Docs 和 Freelancer.com 等公司也遭受了 Anthropic 爬虫的严重抓取，并因此引发了众多法律诉讼。

另请阅读：受到《纽约时报》攻击，OpenAI 要求获取记者的准备文件

虽然人工智能公司相信他们有权在网络上使用自己的“合理使用» 在美国（版权的例外情况）或在欧洲的数据挖掘权，出版商认为这侵犯了他们的版权 - 并且“掠夺”其内容。正在采取法律行动来解决该问题。

🔴为了不错过01net的任何新闻，请关注我们谷歌新闻等WhatsApp。

“您无需付费即可获取我们的内容，您可以调动我们的开发资源”

修改您的条款和条件将无效

相關貼文