處於生成式人工智慧革命核心的大型語言模型 (LLM) 是資料消耗者,可以使用任何方法來訓練它們。為了自己的法學碩士學位,蘋果從出版商那裡購買了許可,但製造商也透過 Applebot 機器人從網路上收集了盡可能多的數據。
Applebot不惜一切代價收穫
Applebot 是製造商多年前在網路上推出的網路爬蟲,旨在改善 Siri 和 Spotlight 中的搜尋結果。它也用於收集用於訓練公司人工智慧模型的數據。這意味著來自「開放網路」的內容可以在由不同功能產生的內容中找到蘋果情報。
不想免費工作的出版商蘋果有可能性拒絕Applebot對其內容的掠奪,但對於迄今為止收集到的所有內容來說已經太晚了。經此消息證實文章來自致力於機器學習的 Apple 部落格以及該小組的領導者。
蘋果人工智慧大佬 John Giannandrea 也有這個能力解釋在主題演講後會議期間:“我們從網路搜尋的投資開始,從公共網路數據開始」。唯一的安慰:對於擴散模型(生成圖像),“Apple 創建了大量數據»。
換句話說,除非你是一個強大的出版商,有能力申請許可證,否則蘋果的人工智慧將利用從未授權利用其內容的網站的數據。被質疑的是華盛頓郵報關於人工智慧為新聞出版商提供的機會,蒂姆·庫克解釋說,許可是“聰明的主意» 並且沒有真正的理由拒絕此類許可。您仍然需要有機會提出要求。
蘋果當然不是第一家利用公共網路訓練人工智慧模型的公司。所有這些都已經這樣做並將繼續這樣做,除非網站明確拒絕。但這證實了,如果需要的話,小型出版商和獨立網站形成了人工智慧的支柱,有時是違背他們的意願的。
來源 : 麥克故事