突破后，大型语言模型可以被压缩到你的手机上，而不需要数千台服务器来运行

2024-12-05

Armanda

（图片来源：Jaque Silva/NurPhoto via Getty Images）

强大的人工智能ChatGPT 等 (AI) 模型需要大量电力才能运行，因此它们通常位于大型数据中心中。但一项新的突破可以压缩这些人工智能模型，使其适合智能手机或笔记本电脑。

一种名为“校准感知低精度分解与低秩适应”(CALDERA) 的新算法通过修剪代码中的冗余并降低其信息层的精度来压缩运行大型语言模型 (LLM) 所需的大量数据。

科学家在 5 月 24 日发布到预印本数据库的一项研究中表示，这种更精简的 LLM 的准确性和细微差别略低于未压缩版本的水平arXiv，在 12 月神经信息处理系统会议 (NeurIPS) 上发表演讲之前。

研究合著者表示：“任何时候，只要你能够降低使用人工智能模型的计算复杂性、存储和带宽要求，你就可以在无法处理此类计算和内存密集型任务的设备和系统上启用人工智能。”安德里亚·戈德史密斯普林斯顿大学电气与计算机工程系教授在一份报告中表示陈述。

科学家在研究中表示，每当有人在手机或笔记本电脑上使用 ChatGPT（举一个流行的例子）时，提出的任何请求都会发送到巨大的远程服务器，在那里处理数据会付出巨大的环境和财务成本。这是因为这种规模的 AI 模型会消耗大量的处理能力，因为它们需要使用数百个甚至数千个组件，例如图形处理单元 (GPU)。因此，要在小型设备上使用单个 GPU 执行这些请求，必须压缩 AI 模型的大小和范围。

有关的：数学家设计了新的问题来挑战高级人工智能的推理能力——但他们几乎没有通过所有测试

为了压缩 LLM，CALDERA 结合了两种技术。科学家们表示，第一种技术是“低精度”，它减少了用于存储信息的位数（数据的 1 和 0），从而加快了存储和处理速度，同时提高了能源效率。第二个称为“低等级”，是指减少训练法学硕士时使用的可学习参数的冗余。

“我们提出了一种用于压缩大型数据集或大型矩阵的通用算法。然后我们意识到，现在不仅数据集很大，部署的模型也越来越大。所以，我们也可以使用我们的算法压缩这些模型，”研究合著者拉贾什·萨哈斯坦福大学博士生在声明中说道。 “结合使用这两种特性，我们能够获得比这两种技术单独实现的压缩率更高的压缩率。”

该团队在 Meta 的开源 Llama 2 和 Llama 3 模型上测试了该算法，与仅使用这两种技术之一的现有压缩算法相比，性能提高了高达 5%。研究结果可能为未来法学硕士在智能手机或笔记本电脑上存储和运行铺平道路，特别是在隐私至关重要且不需要最高精确度的情况下。

然而，科学家们警告说，法学硕士并未针对在此类设备上高效运行进行优化。

“如果你正在攻读法学硕士，而你的手机在一小时内就没电了，你不会高兴的。但我不会说有一种技术可以解决所有问题，”萨哈在声明中说。 “我们在本文中提出的是一种与先前工作中提出的技术结合使用的技术。我认为这种组合将使我们能够更有效地在移动设备上使用法学硕士并获得更准确的结果。”

相關貼文