处于生成式人工智能革命核心的大型语言模型 (LLM) 是数据消耗者,可以使用任何方法来训练它们。为了自己的法学硕士学位,苹果从出版商那里购买了许可,但制造商也通过 Applebot 机器人从网络上收集了尽可能多的数据。
Applebot不惜一切代价收获
Applebot 是制造商多年前在网络上推出的网络爬虫,旨在改善 Siri 和 Spotlight 中的搜索结果。它还用于收集用于训练公司人工智能模型的数据。这意味着来自“开放网络”的内容可以在由不同功能生成的内容中找到苹果情报。
不想免费工作的出版商苹果有可能性拒绝Applebot对其内容的掠夺,但对于迄今为止收集到的所有内容来说已经太晚了。经此消息证实文章来自致力于机器学习的 Apple 博客以及该小组的领导者。
苹果人工智能大佬 John Giannandrea 也有这个能力解释在主旨演讲后会议期间:“我们从对网络搜索的投资开始,从公共网络数据开始”。唯一的安慰:对于扩散模型(生成图像),“Apple 创建了大量数据»。
换句话说,除非你是一个强大的出版商,有能力申请许可证,否则苹果的人工智能将利用从未授权利用其内容的网站的数据。被质疑的是华盛顿邮报关于人工智能为新闻出版商提供的机会,蒂姆·库克解释说,许可是“聪明的主意» 并且没有真正的理由拒绝此类许可。您仍然需要有机会提出要求。
苹果当然不是第一家利用公共网络来训练人工智能模型的公司。所有这些都已经这样做并将继续这样做,除非网站明确拒绝。但这证实了,如果需要的话,小型出版商和独立网站形成了人工智能的支柱,有时是违背他们的意愿的。
来源 : 麦克故事