与所有以生成式人工智能为荣的公司一样,苹果使用大量数据来训练其大型语言模型 (LLM)。数据主要来自知名网站,这些网站从未给予苹果授权。然而,系统可以避免出版商扣押的数据被盗。
脸书、Instagram、乐纽约时报, 这金融时报,今日美国、康泰纳仕……这些新闻出版商和社交网络阻止网络机器人苹果根据他们的说法,利用他们的内容来训练人工智能有线。自2015年以来,苹果机器人对网站内容进行爬网和索引,以支持 Siri 和 Spotlight 搜索结果。
不受欢迎的机器人
但自从生成式人工智能出现以来,这个机器人——以及其他人工智能公司的机器人——收集内容来训练对苹果智能功能至关重要的大型语言模型(LLM)。去年 6 月,苹果公司证实 Applebot 确实被用来驱动和改进其人工智能。
但并非所有在互联网上发布的内容都一定是免版税的。新闻出版商尤其对包括苹果在内的这些公司持悲观态度,这些公司在没有请求任何授权或支付任何费用的情况下利用其内容。原则上,这相当于为世界上最成功、最富有的公司免费工作......
然而,网站有可能可怕的Applebot 不会收集他们的内容。这涉及到“机器人排除”协议,该协议包含在“robots.txt”文件中,用于授权或拒绝机器人访问其网站。
Applebot 本身不是问题:它对于索引将出现在 Siri 或 Spotlight 搜索结果中的文章和内容非常有用。它是它的表弟 Applebot-Extended,它带来了更多的问题,因为它负责收集用于训练 Apple 人工智能的内容。
许多出版商抓住了这个机会,对 Applebot-Extended 关闭了大门……但最终数量并不多。一个研究数据记者 Ben Welsh 的研究表明,他的样本中有四分之一的网站屏蔽了苹果的 AI 机器人,而谷歌的机器人(Google-Extended)的屏蔽率为 43%,OpenAI 的屏蔽率超过一半。因此,仍然有许多出版商授权苹果机器人,也许是因为他们根本不知道它的存在。
robots.txt 文件以前是网站管理员的特权,现在已成为网站管理员手中的商业武器,他们可以使用它来协商对其内容的访问。 OpenAI 使协议倍增,例如与世界,能够训练其人工智能。谣言已经流传了几个月苹果还在与新闻出版商进行谈判。因此,Applebot-Extended 的大门可能会开得更宽一些……
来源 : 有线