Skip to content
  • 熱門
  • 趨勢
  • 精選

Forgot Password?

← Back to login
世界圖譜
世界圖譜
  • 熱門
  • 趨勢
  • 精選
登入
訂閱
世界圖譜
世界圖譜

這就是為什麼轉向人工智能來訓練未來的人工智能可能是一個壞主意

  • 2024-11-20
  • Noble

ChatGPT、Gemini、Copilot 和其他人工智能工具只需一行簡單的文本提示即可生成令人印象深刻的句子和段落。為了生成這些單詞,底層的大型語言模型接受了人類編寫的大量文本和從互聯網上抓取的文本的訓練。但現在,隨著生成式人工智能工具在互聯網上充斥著大量合成內容,這些內容被用來訓練這些人工智能的未來幾代。研究人員表示,如果這種情況繼續不加控制,可能會造成災難性的後果。

利用自己的數據訓練大型語言模型可能導致模型崩潰,牛津大學計算機科學家 Ilia Shumailov 及其同事最近在自然。

模型崩潰聽起來令人震驚,但這並不意味著生成式人工智能就會停止工作。相反,工具的響應將越來越偏離其原始訓練數據。儘管有時存在偏見,但原始數據很好地反映了現實。但當這些工具根據自己生成的數據進行訓練時,它們所犯的小錯誤就會累積起來,它們的內容最終會失去不同觀點的細微差別,並演變成胡言亂語。

這就是舒邁洛夫和同事的發現。該團隊採用了預訓練的語言模型,稱為OPT-125m,並向其提供了一堆維基百科文章來微調其響應。然後,團隊給這個工具一個文本提示,並要求它預測接下來會發生什麼。其響應被反饋到模型中以進行進一步微調。當每一代人都用前一代生成的數據進行訓練時,他們發現到了第九代,模型就開始胡言亂語了。一開始是關於 14 世紀建築的提示,最終變成了長耳大野兔類型的列表。在另一組實驗中,當團隊保留一些原始數據時,模型退化很小。

這項研究表明,如果不加以控制,根據自己的反應來訓練人工智能將會產生嚴重的後果,包括加劇偏見和將文本變成無意義的內容。大型人工智能公司確實有辦法防止這種類型的崩潰,但隨著越來越多的人開始使用語言模型來訓練自己的聊天機器人和其他人工智能,可能會產生後果。

生成式人工智能模型如何崩潰?

語言模型和生成式人工智能已經存在了幾十年,主要是在計算機科學實驗室。但聊天機器人的主導地位是最近的,從 2022 年 11 月 ChatGPT 發布供公眾使用開始。能夠並行處理信息的更好硬件的結合,加上變壓器(一種神經網絡)的出現,以及數万億個高質量、人工創建的數據點的可用性,是這種主導地位的關鍵。

“模型崩潰表明,數據(輸入和輸出)的質量可能會下降,”舒邁洛夫說。

一開始是關於 14 世紀建築的提示,最終變成了長耳大野兔類型的列表。

舒邁洛夫說,要理解其中的原因,想像一下向計算機程序解釋什麼是貓。 “我們真的不知道如何[做到這一點]......所以我們給[法學碩士]一些關於貓是什麼的例子[文本描述],然後我們要求模型學習定義這種生物。”法學碩士通過從給定的觀察集進行推斷,在沒有監督或明確指示的情況下做到這一點。

但這種推斷會帶來微妙的錯誤。舒邁洛夫將其比作電話遊戲,其中一個短語從一個人低聲傳給另一個人,直到到達最後一個人,然後由他大聲說出來。由於沿途引入的錯誤,最初的短語常常會被嚴重破壞。這使得,生成不太正確的看似合理的內容(序列號: 2/1/24)。

如果此類錯誤內容用於訓練模型的更高版本或完全訓練另一個模型,則該內容將開始影響這些模型的學習過程,並最終以某種方式“破壞”它們。

人工智能模型在現實生活中崩潰會是什麼樣子?

德克薩斯大學奧斯汀分校的人工智能研究員 Leqi Liu 表示,模型崩潰本質上是指偏離用於訓練模型的原始文本。造成這種情況的原因之一是數據分佈尾部(代表低概率事件的文本)的消失。例如,以貓為例,模型可能會非常擅長描述毛茸茸的貓,但無法保留有關無毛貓的信息。

劉說,另一個例子是,少數群體的人可能會以不同的方式表達事物,而這種文本會越來越少地出現,從而進一步邊緣化有關邊緣化人群的數據。這就是我們作為最終用戶可能看到的變化。下游影響不僅是人工智能生成的內容放大偏見正如研究表明的那樣,而且聽起來也開始一樣。 “當然,我們可能想要多樣化的自我表達,但如果我們使用同一個寫作助手,那就可能會減少這種多樣性。”

劉說,為了防止人工智能增加偏見或崩潰並胡言亂語,跟踪所有數據並確保使用先驗知識(包括人類生成的文本)和新知識(人工智能生成的文本)進行訓練非常重要。基本上,這個想法是不只用人工智能生成的數據來訓練新模型。 “另一種方法可能是我們明確確保捕獲分佈的尾部。”例如那些無毛貓。

鑑於營銷人工智能工具的公司會嚴格檢查數據漂移,任何問題都會及早被發現並得到解決。因此,模型崩潰的可能性不太可能影響下游用戶,舒邁洛夫說。但嘗試在較小規模上構建模型的個人肯定會受到影響,並且需要意識到風險。

相關貼文

一種扭曲的蛋白質揭示了鹿的慢性消耗性疾病

一種扭曲的蛋白質揭示了鹿的慢性消耗性疾病

與瑪雅人的對話:沃爾特·卡特(Walter Carter Jr.)

與瑪雅人的對話:沃爾特·卡特(Walter Carter Jr.)

一個小的中微子檢測器在核反應堆上得分很高

一個小的中微子檢測器在核反應堆上得分很高

來認識 Chonkus,一種可以幫助減緩氣候變遷的突變藍藻

來認識 Chonkus,一種可以幫助減緩氣候變遷的突變藍藻

一種真菌,以戴維·阿滕伯勒爵士的命名

一種真菌,以戴維·阿滕伯勒爵士的命名

冥王星可能用一個吻捕獲了它的衛星卡戎

冥王星可能用一個吻捕獲了它的衛星卡戎

認識第一位獲得演化生物學博士學位的美國黑人。

認識第一位獲得演化生物學博士學位的美國黑人。

拯救墨西哥奧亞梅爾森林的想法也可以幫助帝王蝶

拯救墨西哥奧亞梅爾森林的想法也可以幫助帝王蝶

世界上最古老的起司現在正在揭示它的一些秘密

世界上最古老的起司現在正在揭示它的一些秘密

熱門閱讀

  • 玄武岩,生物炭和堆肥,這個農場是碳捕獲型床 2025-02-15
  • 實時數據揭示了暴力暴露對青少年伴侶侵略的影響 2025-03-13
  • 能源的未來:2024 年的 5 個充電電池故事 2024-12-23
  • 創新的智慧窗戶技術平衡熱和能見度控制 2025-01-10
  • 這是我們銀河係以外恆星的第一張特寫影像 2024-11-21
  • 青少年吸菸率有所下降,但工作尚未結束 2024-11-19
  • 一個小的中微子檢測器在核反應堆上得分很高 2025-01-30
  • 非洲草原恢復時人類和動物之間的更多和諧 2025-02-18
  • 一種新的隱藏黑洞可能解釋了黑孔的奧秘 2025-01-30
  • 新方法增強了針對側通道攻擊的處理器安全性 2025-03-27

上升趨勢

  • 放開您的iPhone,這個單置13至 2025-04-18
  • Vega OS:亞馬遜想用Android切斷電線 2025-04-18
  • 發現一個新血統:為什麼它可以挽救生命 2025-04-18
  • 它以30i/s的速度拍攝8K,135分鐘的自主權:Insta360 X4售罄,並將比賽投入了比賽。 2025-04-18
  • 暗物質的新形式可能解釋了銀河系的核心奧秘 2025-04-17
  • Netflix提高了法國訂閱的價格,貴33%! 2025-04-18
  • Netflix在法國大大提高了其價格,這造成了很多傷害! 2025-04-18
  • 個性化您的三星星係以前從未有過:最終在Google Play上的終極工具 2025-04-18
  • 昆士蘭州洪水中的bilbies“會很好” 2025-04-17
  • 外星人生活的最有力的證據尚未發現124光年 2025-04-17

最近發布

  • 史上最佳 NHL 球員:專家稱前 5 名傳奇人物 2023-05-19
  • 我們為您呈現 iOS 16 你可能不知道的 10 個隱藏功能 2023-01-09
  • 馬來西亞計劃擴大QR碼用於移民許可的使用 2025-03-13
  • 《生化危機 9》洩露,帶來了遊戲玩法、角色等方面的第一批細節? 2024-11-05
  • 加州乾旱狀況視覺化(2000-2025) 2025-01-13
  • 1887年觀察到的世界紀錄雪花是否掌握科學? 2025-03-07
  • Dell G5 15 (CN55802) 對比 Alienware m18 2024-12-05
  • 微軟記事本獲得人工智慧支援的「重寫」功能 2025-01-06
  • 新的化石揭示了末期巨大滅絕75,000年的各種陸地生態系統 2025-03-12
  • 如何在不遺失資料的情況下縮小/調整硬碟分割區大小 2024-07-25

Copyright © 2024 世界圖譜

  • 關於本網站
  • 隱私權政策
  • 服務條款
  • 世界圖譜