
強大的人工智慧(AI)像Chatgpt這樣的型號需要大量的功率運行,因此通常將其容納在龐大的數據中心中。但是,新的突破可以壓縮這些AI型號,使其適合智能手機或筆記本電腦。
一種新算法被稱為校準,意識到低級適應(Caldera)的低精度分解(Caldera),通過修剪代碼中的冗餘並降低信息層的精確度來壓縮運行大型語言模型(LLM)所需的大量數據。
科學家在5月24日發表的一項針對Preprint數據庫的研究中說,這種精益的LLM的準確性和細微差別的水平略低於未壓縮版本。arxiv在12月的神經信息處理系統(神經)會議上的演講之前。
“只要您可以降低使用AI模型的計算複雜性,存儲和帶寬要求,您就可以在無法處理此類計算和內存密集型任務的設備和系統上啟用AI,”安德里亞·戈德史密斯(Andrea Goldsmith)普林斯頓大學電氣和計算機工程教授說陳述。
科學家在研究中說,每當有人在手機或筆記本電腦上使用chatgpt(以一個受歡迎的示例)時,任何提出的請求都會發送到巨大的遠程服務器,並以巨大的環境和財務成本處理數據。這是因為這種大小的AI模型會消耗大量的處理能力,因為它們可以利用數百個(即使不是數千個)組件,例如圖形處理單元(GPU)。因此,要使用小設備上的單個GPU執行這些請求,必須壓縮AI模型的大小和範圍。
有關的:數學家設計了新穎的問題來挑戰高級AIS的推理技能 - 他們幾乎所有測試都失敗了
為了壓縮LLM,Caldera結合了兩種技術。科學家們說,第一種技術是“低精油”,它減少了用於存儲信息的位(1s和0s)的數量,該數量可以加快存儲和處理,同時提高能源效率。第二個稱為“低級”是指在訓練LLMS中使用的可學習參數中減少冗餘。
“我們提出了一種用於壓縮大數據集或大型矩陣的通用算法。然後我們意識到,如今,不僅是數據集很大,而且要部署的模型也越來越大。因此,我們也可以使用我們的算法來壓縮這些模型,”拉賈希·薩哈(Rajarshi Saha)斯坦福大學的博士生,在聲明中說。 “將這兩個屬性一起使用,我們能夠獲得比這些技術中的任何一種都能單獨實現的壓縮更多。”
該團隊在Meta的開源美洲駝(Llama 2)和Llama 3型號上測試了該算法,並針對僅使用兩種技術之一的現有壓縮算法進行了高達5%的改進。在將來,在隱私是最重要的情況下並且不需要最高精度時,結果可能會為LLMS存儲並在智能手機或筆記本電腦上運行鋪平道路。
但是,科學家警告說,LLM並未優化以在此類設備上有效運行。
Saha在聲明中說:“如果您正在運行LLM,並且您的手機在一個小時內將流失收費就不會感到高興。但是我不會說有一種解決所有問題的技術。” “我們在本文中提出的是一種與先前作品中提出的技術結合使用的技術。我認為,這種組合將使我們能夠更有效地在移動設備上使用LLM,並獲得更準確的結果。”