與所有以生成式人工智慧為榮的公司一樣,蘋果使用大量資料來訓練其大型語言模型 (LLM)。數據主要來自知名網站,這些網站從未給予蘋果授權。然而,系統可以避免出版商扣押的資料被盜。
臉書、Instagram、樂紐約時報, 這金融時報,今日美國、康泰納仕……這些新聞出版商和社群網路阻止網路機器人蘋果根據他們的說法,利用他們的內容來訓練人工智慧有線。自2015年以來,蘋果機器人對網站內容進行爬網和索引,以支援 Siri 和 Spotlight 搜尋結果。
不受歡迎的機器人
但自從生成式人工智慧出現以來,這個機器人——以及其他人工智慧公司的機器人——收集內容來訓練對蘋果智慧功能至關重要的大型語言模型(LLM)。去年 6 月,蘋果證實 Applebot 確實被用來驅動和改進其人工智慧。
但並非所有在網路上發布的內容都一定是免版稅的。新聞出版商尤其對包括蘋果在內的這些公司持悲觀態度,這些公司在沒有要求任何授權或支付任何費用的情況下利用其內容。原則上,這相當於為世界上最成功、最富有的公司免費工作...
然而,網站有可能可怕的Applebot 不會收集他們的內容。這涉及到「機器人排除」協議,該協議包含在「robots.txt」文件中,用於授權或拒絕機器人訪問其網站。
Applebot 本身不是問題:它對於索引將出現在 Siri 或 Spotlight 搜尋結果中的文章和內容非常有用。它是它的表弟 Applebot-Extended,它帶來了更多的問題,因為它負責收集用於訓練 Apple 人工智慧的內容。
許多出版商抓住了這個機會,對 Applebot-Extended 關閉了大門……但最終數量並不多。一個研究數據記者 Ben Welsh 的研究表明,他的樣本中有四分之一的網站封鎖了蘋果的 AI 機器人,而Google的機器人(Google-Extended)的屏蔽率為 43%,OpenAI 的屏蔽率超過一半。因此,仍然有許多出版商授權蘋果機器人,也許是因為他們根本不知道它的存在。
robots.txt 檔案以前是網站管理員的特權,現在已成為網站管理員手中的商業武器,他們可以使用它來協商對其內容的存取。 OpenAI 使協定倍增,例如與世界,能夠訓練其人工智慧。謠言已經流傳了幾個月蘋果也正在與新聞出版商進行談判。因此,Applebot-Extended 的大門可能會開得更寬一些…
來源 : 有線