蘋果用「開放網路」訓練人工智慧：新聞出版商正在反擊

2024-08-30

與所有以生成式人工智慧為榮的公司一樣，蘋果使用大量資料來訓練其大型語言模型 (LLM)。數據主要來自知名網站，這些網站從未給予蘋果授權。然而，系統可以避免出版商扣押的資料被盜。

臉書、Instagram、樂紐約時報，這金融時報,今日美國、康泰納仕……這些新聞出版商和社群網路阻止網路機器人蘋果根據他們的說法，利用他們的內容來訓練人工智慧有線。自2015年以來，蘋果機器人對網站內容進行爬網和索引，以支援 Siri 和 Spotlight 搜尋結果。

不受歡迎的機器人

但自從生成式人工智慧出現以來，這個機器人——以及其他人工智慧公司的機器人——收集內容來訓練對蘋果智慧功能至關重要的大型語言模型（LLM）。去年 6 月，蘋果證實 Applebot 確實被用來驅動和改進其人工智慧。

里拉與所有人工智慧巨頭一樣，蘋果利用網路來訓練其人工智慧

但並非所有在網路上發布的內容都一定是免版稅的。新聞出版商尤其對包括蘋果在內的這些公司持悲觀態度，這些公司在沒有要求任何授權或支付任何費用的情況下利用其內容。原則上，這相當於為世界上最成功、最富有的公司免費工作...

然而，網站有可能可怕的Applebot 不會收集他們的內容。這涉及到「機器人排除」協議，該協議包含在「robots.txt」文件中，用於授權或拒絕機器人訪問其網站。

Applebot 本身不是問題：它對於索引將出現在 Siri 或 Spotlight 搜尋結果中的文章和內容非常有用。它是它的表弟 Applebot-Extended，它帶來了更多的問題，因為它負責收集用於訓練 Apple 人工智慧的內容。

許多出版商抓住了這個機會，對 Applebot-Extended 關閉了大門……但最終數量並不多。一個研究數據記者 Ben Welsh 的研究表明，他的樣本中有四分之一的網站封鎖了蘋果的 AI 機器人，而Google的機器人（Google-Extended）的屏蔽率為 43%，OpenAI 的屏蔽率超過一半。因此，仍然有許多出版商授權蘋果機器人，也許是因為他們根本不知道它的存在。

robots.txt 檔案以前是網站管理員的特權，現在已成為網站管理員手中的商業武器，他們可以使用它來協商對其內容的存取。 OpenAI 使協定倍增，例如與世界，能夠訓練其人工智慧。謠言已經流傳了幾個月蘋果也正在與新聞出版商進行談判。因此，Applebot-Extended 的大門可能會開得更寬一些…

🔴為了不錯過任何01net新聞，請關注我們谷歌新聞等WhatsApp。

來源：有線

不受歡迎的機器人

相關貼文