当人工智能兴起时,人工智能抓取一直是一个大问题,因为它们没有获得许可,也没有要求正确的权限来访问网络来源的数据,同样的问题是基金会现在面临着。
这家非营利组织现在正在抱怨其网站上臭名昭著的人工智能抓取事件,这给他们的服务器造成了巨大的压力。
维基媒体抱怨人工智能机器人抓取信息,给服务器带来压力
维基媒体基金会分享了一个帖子其中详细介绍了大规模的人工智能抓取活动现在如何对其可用的不同网站的运营产生负面影响。据该组织称,从其平台抓取数据的人工智能机器人已经对其服务器造成了巨大的压力,尽管许多有机用户仍然前往其网站获取信息,但机器人占据了大多数。
“但随着人工智能的兴起,动态正在发生变化:我们观察到请求量显着增加,其中大部分流量是由抓取大型语言模型(LLM)和其他用例的训练数据的机器人驱动的,”基金会表示。
总体而言,维基媒体声称自 2024 年 1 月以来,其下载内容的带宽激增了 50%。据报道,从网站上抓取的人工智能机器人已经消耗了数 TB 的数据技术艺术。
未经许可的人工智能抓取的巨大影响
人们一直担心人工智能公司会访问特定的平台、网站及其后端,以收集用于训练模型的数据和信息。 OpenAI 是最臭名昭著的公司之一,因为他们面临着来自不同原告的大规模诉讼,其中包括,,、科技公司等人工智能抓取。
然而,Sam Altman 和 OpenAI 并不是唯一被指控在未经许可或许可的情况下从网络上抓取数据的公司,因为自生成式人工智能时代开始以来,这种做法一直是臭名昭著的。
侵犯版权是未经授权的人工智能抓取的最严重影响之一,但这也是一个隐私问题,尤其是像 Meta 这样的平台,他们的人工智能模型。
其他公司也希望利用其海量数据从人工智能抓取工具中获利,与人工智能公司合作以许可其数据,就像 Reddit 去年推出的那样,谷歌是其最大的客户之一。









