美国人工智能公司 Claude 推出了 ChatGPT 的竞争对手,该公司被指控不尊重网站的一般使用条件,该网站禁止出于训练生成人工智能的目的而收集其内容。另外两个网站注意到克劳德的探索机器人有明显的“刮擦”现象。
人择开发 Claude 的公司是 ChatGPT 的竞争对手之一,它是否乐于挖掘网站来训练其生成式人工智能,而不尊重平台的一般使用条件?这就是 iFixit 首席执行官对他的指控,该公司被描述为“最大的维修信息库“ 在线的。凯尔·维恩斯在他的账户上说X7 月 24 日,这家初创公司的爬虫 Claude 的 Web explorer 机器人攻击了其网站的服务器”24小时内一百万次»:完全违反其一般使用条件的集合。
后者确实规定“未经 iFixit 事先明确书面许可,严禁出于任何其他目的(包括训练机器学习或 AI 模型)复制、拷贝或分发(公司网站)上的任何内容、材料或设计元素”。这些一般条件禁止“抓取”,即提取内容,允许从网站收集数据,然后构成用于训练语言模型的基础。
“您无需付费即可获取我们的内容,您可以调动我们的开发资源”
«如果这些请求中的任何一个访问了我们的服务条款,他们会告诉您明确禁止使用我们的内容。 (……)“,iFixit 首席执行官凯尔·维恩斯 (Kyle Wiens) 在 X 上澄清道。“您不仅可以免费获取我们的内容,还可以利用我们的开发资源。如果您想就我们的内容的商业用途许可进行对话,我们就在这里“,他补充道。
iFixit 包含数千个页面,从维修指南到论坛以及问答:克劳德会大量从中汲取内容。 ” L抓取率如此之高,引发了我们所有的警报并动员了我们的开发团队»,我们的同事中指定凯尔·维恩斯 (Kyle Wiens)边缘。在一个几天前发表的博客文章,人类解释说“根据行业标准,(该公司总部位于旧金山,由 OpenAI 前高管创立,编者注)使用各种数据源进行模型开发,例如互联网上可用的公共数据以及通过网络爬虫收集的数据»。等 «为了避免被克劳德的机器人探索,必须修改robots.txt文件» 并添加特定的扩展名,添加公司。这些类型的文件通常告诉网络爬虫他们可以或不能访问哪些页面。
iFixit 很快添加了一个扩展。这家专门从事在线修复的公司随后证实,一旦安装了这个扩展,Anthropic 爬虫就停止了。该初创公司的发言人 Jennifer Martinez 接受了采访边缘,然后澄清公司尊重“robots.txt 文件。当 iFixit 实现时,我们的爬虫尊重了这个信号”。这意味着网站的条款和条件不足以阻止 Anthropic 的机器人。我们必须明确阻止这种生成人工智能的“爬虫”,以避免其数据最终出现在克劳德的训练数据库中。
修改您的条款和条件将无效
iFixit 的案例远非孤立:据一位数据来源倡议发表的研究,它呈现为“一群自愿投入时间参与数据透明度项目的独立研究人员和学者”,许多网站修改了一般使用条件 (CGU),明确禁止抓取其内容。但这在实践中不会有效,除非有网站想要起诉人工智能公司。
提问者404媒体该研究的主要作者 Shayne Longpre 澄清说,似乎只有大型平台的条款和条件才受到尊重,即那些可能采取了法律行动的平台。但他补充说,其余的都被人工智能公司忽视了。 Read the Docs 和 Freelancer.com 公司的 CEO 声明称,Read the Docs 和 Freelancer.com 等公司也遭受了 Anthropic 爬虫的严重抓取,并因此引发了众多法律诉讼。
虽然人工智能公司相信他们有权在网络上使用自己的“合理使用» 在美国(版权的例外情况)或在欧洲的数据挖掘权,出版商认为这侵犯了他们的版权 - 并且“掠夺”其内容。正在采取法律行动来解决该问题。