強大的ChatGPT 等 (AI) 模型需要大量電力才能運行,因此它們通常位於大型數據中心中。但一項新的突破可以壓縮這些人工智能模型,使其適合智能手機或筆記本電腦。
一種名為“校準感知低精度分解與低秩適應”(CALDERA) 的新算法通過修剪代碼中的冗餘並降低其信息層的精度來壓縮運行大型語言模型 (LLM) 所需的大量數據。
研究合著者表示:“任何時候,只要你能夠降低使用人工智能模型的計算複雜性、存儲和帶寬要求,你就可以在無法處理此類計算和內存密集型任務的設備和系統上啟用人工智能。”安德里亞·戈德史密斯普林斯頓大學電氣與計算機工程系教授在一份報告中表示陳述。
科學家在研究中表示,每當有人在手機或筆記本電腦上使用 ChatGPT(舉一個流行的例子)時,提出的任何請求都會發送到巨大的遠程服務器,在那里處理數據會付出巨大的環境和財務成本。這是因為這種規模的 AI 模型會消耗大量的處理能力,因為它們需要使用數百個甚至數千個組件,例如圖形處理單元 (GPU)。因此,要在小型設備上使用單個 GPU 執行這些請求,必須壓縮 AI 模型的大小和範圍。
有關的:
為了壓縮 LLM,CALDERA 結合了兩種技術。科學家們表示,第一種技術是“低精度”,它減少了用於存儲信息的位數(數據的 1 和 0),從而加快了存儲和處理速度,同時提高了能源效率。第二個稱為“低等級”,是指減少訓練法學碩士時使用的可學習參數的冗餘。
“我們提出了一種用於壓縮大型數據集或大型矩陣的通用算法。然後我們意識到,現在不僅數據集很大,而且部署的模型也越來越大。因此,我們也可以使用我們的算法來壓縮這些模型,”研究合著者拉賈什·薩哈斯坦福大學博士生在聲明中說道。 “結合使用這兩種特性,我們能夠獲得比這兩種技術單獨實現的壓縮率更高的壓縮率。”
該團隊在 Meta 的開源 Llama 2 和 Llama 3 模型上測試了該算法,與僅使用這兩種技術之一的現有壓縮算法相比,性能提高了高達 5%。研究結果可能為未來法學碩士在智能手機或筆記本電腦上存儲和運行鋪平道路,特別是在隱私至關重要且不需要最高精確度的情況下。
然而,科學家們警告說,法學碩士並未針對在此類設備上高效運行進行優化。
“如果你正在攻讀法學碩士,而你的手機在一小時內就沒電了,你不會高興的。但我不會說有一種技術可以解決所有問題,”薩哈在聲明中說。 “我們在本文中提出的是一種與先前工作中提出的技術結合使用的技術。我認為這種組合將使我們能夠更有效地在移動設備上使用法學碩士並獲得更準確的結果。”









