苹果用“开放网络”训练人工智能：新闻出版商正在反击

2024-08-30

与所有以生成式人工智能为荣的公司一样，苹果使用大量数据来训练其大型语言模型 (LLM)。数据主要来自知名网站，这些网站从未给予苹果授权。然而，系统可以避免出版商扣押的数据被盗。

脸书、Instagram、乐纽约时报，这金融时报,今日美国、康泰纳仕……这些新闻出版商和社交网络阻止网络机器人苹果根据他们的说法，利用他们的内容来训练人工智能有线。自2015年以来，苹果机器人对网站内容进行爬网和索引，以支持 Siri 和 Spotlight 搜索结果。

不受欢迎的机器人

但自从生成式人工智能出现以来，这个机器人——以及其他人工智能公司的机器人——收集内容来训练对苹果智能功能至关重要的大型语言模型（LLM）。去年 6 月，苹果公司证实 Applebot 确实被用来驱动和改进其人工智能。

里拉与所有人工智能巨头一样，苹果利用网络来训练其人工智能

但并非所有在互联网上发布的内容都一定是免版税的。新闻出版商尤其对包括苹果在内的这些公司持悲观态度，这些公司在没有请求任何授权或支付任何费用的情况下利用其内容。原则上，这相当于为世界上最成功、最富有的公司免费工作......

然而，网站有可能可怕的Applebot 不会收集他们的内容。这涉及到“机器人排除”协议，该协议包含在“robots.txt”文件中，用于授权或拒绝机器人访问其网站。

Applebot 本身不是问题：它对于索引将出现在 Siri 或 Spotlight 搜索结果中的文章和内容非常有用。它是它的表弟 Applebot-Extended，它带来了更多的问题，因为它负责收集用于训练 Apple 人工智能的内容。

许多出版商抓住了这个机会，对 Applebot-Extended 关闭了大门……但最终数量并不多。一个研究数据记者 Ben Welsh 的研究表明，他的样本中有四分之一的网站屏蔽了苹果的 AI 机器人，而谷歌的机器人（Google-Extended）的屏蔽率为 43%，OpenAI 的屏蔽率超过一半。因此，仍然有许多出版商授权苹果机器人，也许是因为他们根本不知道它的存在。

robots.txt 文件以前是网站管理员的特权，现在已成为网站管理员手中的商业武器，他们可以使用它来协商对其内容的访问。 OpenAI 使协议倍增，例如与世界，能够训练其人工智能。谣言已经流传了几个月苹果还在与新闻出版商进行谈判。因此，Applebot-Extended 的大门可能会开得更宽一些……

🔴为了不错过任何01net新闻，请关注我们谷歌新闻等WhatsApp。

来源：有线

不受欢迎的机器人

相關貼文