CloudFlare提供了一个免费的解决方案,可以阻止机器人刮擦网站以获取AI模型培训数据。
Google,OpenAI和Apple允许网站所有者通过编辑Robots.txt来停止其数据搭式机器人;但是,CloudFlare指出,并非所有的AI刮刀都遵循此建议。
公开列出的云服务公司CloudFlare表示,客户不希望AI机器人访问其网站,尤其是欺诈。它说某些AI业务旨在绕过内容控制根据TechCrunch,将不断适应以避免机器人检测。
CloudFlare评估了AI机器人和轨道流量,以改善此问题的自动机器人检测算法。这些算法评估AI机器人是否希望看起来像人类Web浏览器用户。
Cloudflare说,恶意演员在大规模爬网网站上使用指纹工具和框架。基于这些特征,我们的算法可以将回避的AI机器人流量识别为机器人。
AI机器人是增加的安全风险
随着生成AI的增长,AI机器人正在增加,从而提高了培训数据要求。担心AI商人将在未经许可或报酬的情况下使用其内容,几个网站限制了AI刮刀和爬网。研究表明,有600多家新闻发布者和26%的前1,000个网站已关闭Openai的机器人。

阻止并不总是可靠的。据报道,一些制造商违反了AI机器人排除法规以获得优势。人们指责使真实访客刮擦内容的困惑,而Openai和Anthropic违反了Robots.txt规定。
如果他们能发现隐藏的AI机器人,Cloudflare的工具可能会有所帮助。但是,他们并不能解决更大的出版商问题,即从AI工具(例如Google AI概述)中失去了推荐流量,该工具不包括限制特定AI爬网的站点。
最近,CloudFlare发布了2024年的应用状态安全报告。分析表明,安全团队如何努力处理当代应用程序的危险,这些应用程序为许多受欢迎的网站提供了帮助。
分析表明,软件供应链挑战,DDOS攻击和恶意机器人压倒性专业应用程序安全团队。
在数字时代,电子商务交易,安全的医疗保健数据交换以及每日移动活动需要网络应用程序和API。随着这些应用程序变得越来越流行,网络攻击变得越来越可能。
新功能的快速发展,例如生成AI,增加了攻击表面。根据该报告,未受保护的应用程序可能会破坏业务,花钱并破坏重要的基础设施。
CloudFlare联合创始人兼首席执行官Matthew Prince指出,每天用于重要任务的在线应用程序“很少牢记安全性”,将其暴露于黑客。该公司强调说,它可以防止其客户每天2090亿个网络攻击。
Reddit上不允许AI机器人
Reddit最近宣布,它将禁止大多数自动化机器人在没有许可证的情况下使用其数据。
Mashable报告说,Reddit计划将其robots.txt文件更改为限制网络蜘蛛。该平台针对的是AI业务,这些业务刮擦网络以训练其模型,无视版权或网站服务条款。
Reddit在一篇博客文章中解释说,诸如学者和互联网档案之类的“诚信行为者”仍然可以出于非商业目的访问其信息。