ทรงพลังโมเดล (AI) เช่น ChatGPT ต้องใช้พลังงานจำนวนมากจึงจะทำงานได้ ดังนั้นจึงมักถูกเก็บไว้ในศูนย์ข้อมูลขนาดใหญ่ แต่ความก้าวหน้าครั้งใหม่สามารถบีบอัดโมเดล AI เหล่านี้เพื่อให้พอดีกับสมาร์ทโฟนหรือแล็ปท็อป
อัลกอริธึมใหม่ซึ่งมีชื่อว่า Calibration Aware Low precision Decomposition with Low Rank Adaptation (CALDERA) บีบอัดข้อมูลจำนวนมหาศาลที่จำเป็นในการรันโมเดลภาษาขนาดใหญ่ (LLM) โดยการตัดความซ้ำซ้อนในโค้ดและลดความแม่นยำของเลเยอร์ข้อมูล
LLM ที่บางกว่านี้ทำงานด้วยความแม่นยำและความแตกต่างในระดับที่ต่ำกว่ารุ่นที่ไม่มีการบีบอัดเล็กน้อย นักวิทยาศาสตร์กล่าวในการศึกษาที่เผยแพร่เมื่อวันที่ 24 พฤษภาคมในฐานข้อมูลก่อนพิมพ์อาร์เอ็กซ์ก่อนการนำเสนอในการประชุม Conference on Neural Information Processing Systems (NeurIPS) ในเดือนธันวาคม
“เมื่อใดก็ตามที่คุณสามารถลดความซับซ้อนในการคำนวณ พื้นที่เก็บข้อมูล และความต้องการแบนด์วิธของการใช้โมเดล AI ได้ คุณก็จะสามารถเปิดใช้งาน AI บนอุปกรณ์และระบบที่ไม่สามารถรองรับงานที่ใช้การประมวลผลและหน่วยความจำจำนวนมากได้” ผู้เขียนร่วมการศึกษาแอนเดรีย โกลด์สมิธศาสตราจารย์ด้านวิศวกรรมไฟฟ้าและคอมพิวเตอร์จากมหาวิทยาลัยพรินซ์ตัน กล่าวในคำแถลง-
เมื่อใดก็ตามที่มีคนใช้ ChatGPT (เพื่อยกตัวอย่างยอดนิยมสักหนึ่งตัวอย่าง) บนโทรศัพท์หรือแล็ปท็อป คำขอใดๆ จะถูกส่งไปยังเซิร์ฟเวอร์ระยะไกลขนาดใหญ่ ซึ่งข้อมูลจะได้รับการประมวลผลโดยมีค่าใช้จ่ายด้านสิ่งแวดล้อมและการเงินสูง นักวิทยาศาสตร์กล่าวในการศึกษานี้ เนื่องจากโมเดล AI ขนาดนี้ใช้พลังงานในการประมวลผลจำนวนมากในขณะที่นำไปใช้ในส่วนประกอบต่างๆ เช่น หน่วยประมวลผลกราฟิก (GPU) นับร้อยหรือนับพัน ดังนั้น ในการดำเนินการตามคำขอเหล่านี้โดยใช้ GPU ตัวเดียวบนอุปกรณ์ขนาดเล็ก ขนาดและขอบเขตของโมเดล AI จะต้องถูกบีบอัด
ที่เกี่ยวข้อง:
ในการบีบอัด LLM CALDERA จะรวมสองเทคนิคเข้าด้วยกัน เทคนิคแรกคือ "ความแม่นยำต่ำ" ซึ่งจะช่วยลดจำนวนบิต (1 วินาทีและ 0 ของข้อมูล) ที่ใช้ในการจัดเก็บข้อมูล ซึ่งจะช่วยเร่งการจัดเก็บและประมวลผล ในขณะเดียวกันก็ปรับปรุงประสิทธิภาพการใช้พลังงาน นักวิทยาศาสตร์กล่าว ประการที่สองเรียกว่า "อันดับต่ำ" หมายถึงการลดความซ้ำซ้อนในพารามิเตอร์ที่สามารถเรียนรู้ได้ซึ่งใช้ในการฝึกอบรม LLM
"เราเสนออัลกอริธึมทั่วไปสำหรับการบีบอัดชุดข้อมูลขนาดใหญ่หรือเมทริกซ์ขนาดใหญ่ จากนั้นเราก็ตระหนักว่าทุกวันนี้ ไม่ใช่แค่ชุดข้อมูลที่มีขนาดใหญ่เท่านั้น แต่โมเดลที่ใช้งานก็มีขนาดใหญ่ขึ้นเช่นกัน ดังนั้น เราสามารถใช้อัลกอริธึมของเราได้เช่นกัน เพื่อบีบอัดแบบจำลองเหล่านี้" ผู้ร่วมเขียนการศึกษาราชรชิ สหะนักศึกษาปริญญาเอกจากมหาวิทยาลัยสแตนฟอร์ด กล่าวในแถลงการณ์ "การใช้คุณสมบัติทั้งสองนี้ร่วมกัน เราจะสามารถรับการบีบอัดได้มากกว่าเทคนิคใดเทคนิคหนึ่งที่สามารถทำได้ทีละเทคนิค"
ทีมงานทดสอบอัลกอริธึมบนโมเดล Llama 2 และ Llama 3 โอเพ่นซอร์สของ Meta และบันทึกการปรับปรุงสูงสุดถึง 5% เทียบกับอัลกอริธึมการบีบอัดที่มีอยู่ซึ่งใช้เพียงหนึ่งในสองเทคนิค ผลลัพธ์ที่ได้สามารถปูทางให้ LLM สามารถจัดเก็บและทำงานบนสมาร์ทโฟนหรือแล็ปท็อปได้ในอนาคต ในกรณีที่ความเป็นส่วนตัวเป็นสิ่งสำคัญยิ่งและเมื่อไม่จำเป็นต้องใช้ความแม่นยำสูงสุด
อย่างไรก็ตาม นักวิทยาศาสตร์เตือนว่า LLM ไม่ได้รับการปรับให้เหมาะสมเพื่อให้ทำงานอย่างมีประสิทธิภาพบนอุปกรณ์ดังกล่าว
“คุณจะไม่มีความสุขหากคุณใช้ LLM และโทรศัพท์ของคุณหมดประจุภายในหนึ่งชั่วโมง แต่ฉันจะไม่บอกว่ามีเทคนิคเดียวที่สามารถแก้ไขปัญหาทั้งหมดได้” Saha กล่าวในแถลงการณ์ "สิ่งที่เรานำเสนอในบทความนี้คือเทคนิคหนึ่งที่ใช้ร่วมกับเทคนิคที่นำเสนอในงานก่อนหน้านี้ และฉันคิดว่าการผสมผสานนี้จะช่วยให้เราสามารถใช้ LLM บนอุปกรณ์เคลื่อนที่ได้อย่างมีประสิทธิภาพมากขึ้นและได้ผลลัพธ์ที่แม่นยำยิ่งขึ้น"