當人工智能興起時,人工智能抓取一直是一個大問題,因為它們沒有獲得許可,也沒有要求正確的權限來訪問網絡來源的數據,同樣的問題是基金會現在面臨著。
這家非營利組織現在正在抱怨其網站上臭名昭著的人工智能抓取事件,這給他們的服務器造成了巨大的壓力。
維基媒體抱怨人工智能機器人抓取信息,給服務器帶來壓力
維基媒體基金會分享了一個帖子其中詳細介紹了大規模的人工智能抓取活動現在如何對其可用的不同網站的運營產生負面影響。據該組織稱,從其平台抓取數據的人工智能機器人已經對其服務器造成了巨大的壓力,儘管許多有機用戶仍然前往其網站獲取信息,但機器人佔據了大多數。
“但隨著人工智能的興起,動態正在發生變化:我們觀察到請求量顯著增加,其中大部分流量是由抓取大型語言模型(LLM)和其他用例的訓練數據的機器人驅動的,”基金會表示。
總體而言,維基媒體聲稱自 2024 年 1 月以來,其下載內容的帶寬激增了 50%。據報導,從網站上抓取的人工智能機器人已經消耗了數 TB 的數據技術藝術。
未經許可的人工智能抓取的巨大影響
人們一直擔心人工智能公司會訪問特定的平台、網站及其後端,以收集用於訓練模型的數據和信息。 OpenAI 是最臭名昭著的公司之一,因為他們面臨著來自不同原告的大規模訴訟,其中包括,,、科技公司等人工智能抓取。
然而,Sam Altman 和 OpenAI 並不是唯一被指控在未經許可或許可的情況下從網絡上抓取數據的公司,因為自生成式人工智能時代開始以來,這種做法一直是臭名昭著的。
侵犯版權是未經授權的人工智能抓取的最顯著影響之一,但這也是一個隱私問題,尤其是像 Meta 這樣的平台,他們的人工智能模型。
其他公司也希望利用其海量數據從人工智能抓取工具中獲利,與人工智能公司合作以許可其數據,就像 Reddit 去年推出的那樣,谷歌是其最大的客戶之一。








