Cloudflare揭露了战斗AI刮擦机器人的工具

CloudFlare提供了一个免费的解决方案，可以阻止机器人刮擦网站以获取AI模型培训数据。

Google，OpenAI和Apple允许网站所有者通过编辑Robots.txt来停止其数据搭式机器人；但是，CloudFlare指出，并非所有的AI刮刀都遵循此建议。

公开列出的云服务公司CloudFlare表示，客户不希望AI机器人访问其网站，尤其是欺诈。它说某些AI业务旨在绕过内容控制根据TechCrunch，将不断适应以避免机器人检测。

CloudFlare评估了AI机器人和轨道流量，以改善此问题的自动机器人检测算法。这些算法评估AI机器人是否希望看起来像人类Web浏览器用户。

Cloudflare说，恶意演员在大规模爬网网站上使用指纹工具和框架。基于这些特征，我们的算法可以将回避的AI机器人流量识别为机器人。

AI机器人是增加的安全风险

随着生成AI的增长，AI机器人正在增加，从而提高了培训数据要求。担心AI商人将在未经许可或报酬的情况下使用其内容，几个网站限制了AI刮刀和爬网。研究表明，有600多家新闻发布者和26％的前1,000个网站已关闭Openai的机器人。

阻止并不总是可靠的。据报道，一些制造商违反了AI机器人排除法规以获得优势。人们指责使真实访客刮擦内容的困惑，而Openai和Anthropic违反了Robots.txt规定。

如果他们能发现隐藏的AI机器人，Cloudflare的工具可能会有所帮助。但是，他们并不能解决更大的出版商问题，即从AI工具（例如Google AI概述）中失去了推荐流量，该工具不包括限制特定AI爬网的站点。

最近，CloudFlare发布了2024年的应用状态安全报告。分析表明，安全团队如何努力处理当代应用程序的危险，这些应用程序为许多受欢迎的网站提供了帮助。

分析表明，软件供应链挑战，DDOS攻击和恶意机器人压倒性专业应用程序安全团队。

在数字时代，电子商务交易，安全的医疗保健数据交换以及每日移动活动需要网络应用程序和API。随着这些应用程序变得越来越流行，网络攻击变得越来越可能。

新功能的快速发展，例如生成AI，增加了攻击表面。根据该报告，未受保护的应用程序可能会破坏业务，花钱并破坏重要的基础设施。

CloudFlare联合创始人兼首席执行官Matthew Prince指出，每天用于重要任务的在线应用程序“很少牢记安全性”，将其暴露于黑客。该公司强调说，它可以防止其客户每天2090亿个网络攻击。

Reddit最近宣布，它将禁止大多数自动化机器人在没有许可证的情况下使用其数据。

Mashable报告说，Reddit计划将其robots.txt文件更改为限制网络蜘蛛。该平台针对的是AI业务，这些业务刮擦网络以训练其模型，无视版权或网站服务条款。

Reddit在一篇博客文章中解释说，诸如学者和互联网档案之类的“诚信行为者”仍然可以出于非商业目的访问其信息。