回到人工智能上升时,AI刮擦是一个巨大的问题,因为它们没有许可,并且没有要求正确的权限从Web来源访问数据,而同样的问题就是什么基金会现在正面临。
该非营利组织现在正在抱怨其网站上臭名昭著的AI刮擦案件,该案例现在正在对服务器产生巨大的压力。
Wikimedia抱怨AI机器人刮擦,使其服务器紧张
Wikimedia基金会分享帖子哪个详细介绍了大规模的AI刮擦活动如何对其可用的不同网站的运营产生负面影响。该组织称,从其平台上刮擦数据的AI机器人已经给服务器带来了重大压力,尽管许多有机用户仍然前往其网站以获取信息,但机器人却占多数。
该基金会说:“但是随着人工智能的兴起,动态正在发生变化:我们观察到请求量的大幅增加,大部分流量都是由刮擦机器人收集大型语言模型(LLMS)和其他用例的培训数据所驱动的。”
总体而言,Wikimedia声称自2024年1月以来,下载内容的带宽飙升了50%。从其网站上刮下的AI机器人一直在消耗数据的数据。ARS Technica。
无限制的AI刮擦的巨大影响
人们担心AI公司将进入特定平台,网站及其后端,以收集他们将用于培训模型的数据和信息。 Openai是最臭名昭著的人之一,因为他们面临来自不同原告的大规模诉讼,,,,,,,,,科技公司,以及更多用于人工智能刮擦。
但是,山姆·奥特曼(Sam Altman)和Openai并不是唯一据称正在从网络上刮取数据的人,并且在没有许可或许可的情况下这样做是自从生成AI的时代开始以来的一种臭名昭著的做法。
版权侵权是未经授权的AI刮擦的最重要影响之一,但这也是隐私问题,尤其是在Meta之类的平台上,收获的平台为他们的AI模型。
其他公司希望利用其大量数据从AI刮刀中获利,与AI公司合作,以许可其数据,例如Reddit去年推出的数据,Google是其最大的客户之一。