強大的ChatGPT 等 (AI) 模型需要大量電力才能運行,因此它們通常位於大型資料中心中。但一項新的突破可以壓縮這些人工智慧模型,使其適合智慧型手機或筆記型電腦。
一種名為「校準感知低精度分解與低秩適應」(CALDERA) 的新演算法透過修剪程式碼中的冗餘並降低其資訊層的精度來壓縮運行大型語言模型 (LLM) 所需的大量資料。
科學家在 5 月 24 日發佈到預印本資料庫的一項研究中表示,這種更精簡的 LLM 的準確性和細微差別略低於未壓縮版本的水平arXiv,在 12 月神經資訊處理系統會議 (NeurIPS) 上發表演講之前。
研究合著者表示:「任何時候,只要你能夠降低使用人工智慧模型的運算複雜性、儲存和頻寬要求,你就可以在無法處理此類運算和記憶體密集任務的裝置和系統上啟用人工智慧。 」安德里亞·戈德史密斯普林斯頓大學電機與電腦工程系教授在報告中表示陳述。
科學家在研究中表示,每當有人在手機或筆記型電腦上使用ChatGPT(舉一個流行的例子)時,提出的任何請求都會發送到巨大的遠端伺服器,在那裡處理資料會付出巨大的環境和財務成本。這是因為這種規模的 AI 模型會消耗大量的處理能力,因為它們需要使用數百個甚至數千個元件,例如圖形處理單元 (GPU)。因此,要在小型裝置上使用單一 GPU 執行這些請求,必須壓縮 AI 模型的大小和範圍。
有關的:
為了壓縮 LLM,CALDERA 結合了兩種技術。科學家表示,第一種技術是“低精度”,它減少了用於儲存資訊的位數(數據的 1 和 0),從而加快了儲存和處理速度,同時提高了能源效率。第二個稱為“低等級”,是指減少訓練法學碩士時使用的可學習參數的冗餘。
「我們提出了一種用於壓縮大型資料集或大型矩陣的通用演算法。然後我們意識到,現在不僅資料集很大,部署的模型也越來越大。所以,我們也可以使用我們的演算法壓縮這些模型,」研究合著者拉賈什·薩哈史丹佛大學博士生在聲明中說。 “結合使用這兩種特性,我們能夠獲得比這兩種技術單獨實現的壓縮率更高的壓縮率。”
該團隊在 Meta 的開源 Llama 2 和 Llama 3 模型上測試了該演算法,與僅使用這兩種技術之一的現有壓縮演算法相比,性能提高了高達 5%。研究結果可能為未來法學碩士在智慧型手機或筆記型電腦上儲存和運行鋪平道路,特別是在隱私至關重要且不需要最高精確度的情況下。
然而,科學家警告說,法學碩士並未針對在此類設備上高效運行進行最佳化。
「如果你正在攻讀法學碩士,而你的手機在一小時內就沒電了,你不會高興的。但我不會說有一種技術可以解決所有問題,」薩哈在聲明中說。 “我們在本文中提出的是一種與先前工作中提出的技術結合使用的技術。我認為這種組合將使我們能夠更有效地在移動設備上使用法學碩士並獲得更準確的結果。”