人工智慧(人工智慧)先知和新聞母子正在預測生成AI炒作的結束,並談論即將發生的災難性的“模型崩潰”。
但是這些預測有多現實?什麼是模型崩潰?
討論了2023,但得到了普及最近,“模型崩潰”是指一個假設的情況,由於Internet上AI生成的數據的增加,未來的AI系統逐漸變得笨拙。
數據的需求
現代AI系統是使用機器學習。程序員設置了基本的數學結構,但是實際的“智能”來自訓練系統到模擬數據模式。
但不僅僅是任何數據。當前的生成AI系統需要高質量的數據以及大量數據。
為了獲取這些數據,OpenAI,Google,Meta和Nvidia等大型科技公司不斷搜索互聯網內容的trabytes為了供電機器。但是自從出現以來廣泛可用和有用2022年的生成AI系統,人們越來越多地上傳和共享AI的部分或整個內容。
在2023年,研究人員開始懷疑他們是否只能依靠AI創建的數據進行培訓,而不是人類生成的數據,他們是否可以擺脫。
有巨大的激勵措施來進行這項工作。除了在Internet上增殖外,AI製作的內容是便宜得多比人類數據來源。也不是從道德上 和 法律上 值得懷疑的收集大批。
但是,研究人員發現,如果沒有高質量的人類數據,就可以培訓了AI製造的數據的AI系統得到鄧伯和鄧伯隨著每個模型從上一個模型中學習。這就像近交問題的數字版本。
這 ”剖腹訓練“似乎導致模型行為的質量和多樣性的降低。這裡的質量大致意味著有幫助,無害和誠實的某種結合。多樣性是指響應的差異,以及人們在AI輸出中代表了人們的文化和社會觀點。
簡而言之:通過如此多的AI系統,我們可能會污染最初需要使它們有用的數據源。
避免崩潰
大型技術不能只是過濾AI生成的內容嗎?並不真地。科技公司已經花費大量時間和金錢清潔和過濾它們刮擦的數據,最近有一個行業內部人士分享有時會丟棄多達90%他們最初收集的用於培訓模型的數據。
這些努力可能會變得更加要求,因為需要特別刪除AI生成的內容增加。但更重要的是,從長遠來看,它實際上會變得越來越難以區分AI內容。這將使合成數據的過濾和刪除成為減少(財務)回報的遊戲。
最終,迄今為止的研究表明,我們無法完全消除人類數據。畢竟,這是AI中的“我”來自的地方。
我們要去災難嗎?
有一些提示開發人員已經不得不更加努力地來獲取高質量數據。例如,文件伴隨GPT-4版本歸功於該項目與數據相關部分的前所未有的員工。
我們可能還用完了新的人類數據。一些估計假設人類生成的文本數據庫可能會在2026年後立即被淘汰。
這可能是為什麼Openai和其他人競賽以建立獨家合作夥伴關係與行業龐然大物一樣快門,,,,美聯社和新聞界。他們擁有大量專有的人類數據集,這些數據在公共互聯網上不易獲得。
但是,災難性模型崩潰的前景可能被誇大了。到目前為止,大多數研究都查看綜合數據取代人類數據的情況。實際上,人類和人工智能數據可能會並行積累,減少崩潰的可能性。
未來最有可能的情況還將看到一個有些多樣化的生成AI平台的生態系統用於創建和發佈內容,而不是一個單片模型。這也提高了抵抗崩潰的魯棒性。
這是監管機構通過限制壟斷在AI部門,並資助公共利益技術開發。
真正的擔憂
過多的AI製造內容也有更多的微妙風險。
大量合成內容可能不會對AI開發的進步構成生存威脅,但它確實威脅到(人類)互聯網的數字公共利益。
例如,研究人員發現16%在ChatGpt發行一年後,在編碼網站上的Acting網站上的活動中。這表明AI援助可能已經在減少某些在線社區中的人與人互動。
超生產從AI驅動的內容農場也很難找到不是點擊誘餌塞滿了廣告。
可靠地區分人類生成和AI生成的內容是不可能的。解決此問題的一種方法是水印或標記AI生成的內容,因為我和其他許多人都擁有最近突出顯示正如最近澳大利亞政府所反映的臨時立法。
還有另一種風險。隨著AI生成的內容變得系統地均勻,我們可能會失去社會文化多樣性一些人甚至可以體驗文化擦除。我們急需跨學科研究在社會和文化挑戰由AI系統構成。
人類互動和人類數據很重要,我們應該保護它們。為了我們自己的緣故,也許是出於可能未來模型崩潰的風險。
亞倫·斯諾斯韋爾(Aaron J. Snoswell),AI問責制研究員,昆士蘭州技術大學