当前位置：首页 » 资讯 » 新科技 » 正文

微软BitDistill将LLM压缩到1.58比特:10倍省内存、2.65倍推理加速

IP属地中国·北京 机器之心Pro 时间：2025-10-20 16:10:21

机器之心报道
编辑：+0、陈陈
大语言模型（LLM）不仅在推动通用自然语言处理方面发挥了关键作用，更重要的是，它们已成为支撑多种下游应用如推荐、分类和检索的核心引擎。尽管 LLM 具有广泛的适用性，但在下游任务中高效部署仍面临重大挑战。随着模型规模的急剧扩大，这些挑战被进一步放大，尤其是在资源受限的设备上（如智能手机），内存占用和计算开销都变得极其昂贵。
为应对这些问题，近期研究提出了极低比特（extreme low-bit）LLM，例如使用 1.58 比特（即三值 {-1, 0, 1}）表示的 BitNet。这种方法旨在显著降低内存占用并加速推理，从而为 LLM 在下游应用中的高效部署提供一条可行途径。
然而，要让 1.58 比特的 BitNet 在下游任务中达到与高精度模型相媲美的准确率，通常需要从零开始在大规模语料上进行预训练，这会带来巨大的计算和能耗成本。
如图 1 所示，直接对已有的全精度 LLM 进行 1.58 比特量化感知训练（Quantization-Aware Training, QAT）时，在特定下游任务上的训练过程往往不稳定，难以保持原有的性能，并表现出较差的可扩展性：当模型规模从 0.6B 增大到 4B 时，相对于全精度基线的性能差距从 13.9 扩大到 15.3。

这一现象凸显出：迫切需要专门为 1.58 比特 BitNet 设计的更有效的量化感知训练方法。
在本研究中，来自微软的研究者聚焦于将已有的 LLM 微调至 1.58 比特以适配特定下游任务，同时保持与全精度模型相当的性能。为此，本文提出了 BitDistill（BitNet Distillation）—— 一种具备良好可扩展性的量化感知训练（QAT）框架，旨在弥合极端 1.58 比特量化与实际部署之间的性能差距。
在四个基准任务及多种模型规模上的大量实验表明，BitDistill 具有出色的可扩展性，其下游任务性能可与全精度基线持平。同时，如图 1 所示，BitDistill 在 CPU 上实现了 10 倍的内存节省和 2.65 倍的推理加速，显著改善了延迟、吞吐量、内存效率和能耗，使其特别适合部署在资源受限的硬件平台上。

论文地址：https://www.arxiv.org/pdf/2510.13998代码地址：https://github.com/microsoft/BitNet论文标题：BitNet Distillation
方法介绍：BitDistill
本文针对在资源受限设备上部署 LLM 以执行特定下游任务。重点是高效地将现有的预训练 LLM 压缩为 1.58 比特的 BitNet 模型，同时尽量减少性能损失与训练成本。
BitDistill 框架包含三个关键阶段：
第一阶段：模型精炼阶段。
与全精度模型不同，在标准初始化方案下，全精度模型的隐藏状态方差通常能够保持在一个稳定范围内；而低比特量化模型（如 1.58 比特 LLM）则常常遭受过大的激活方差问题，导致优化过程不稳定并造成收敛性能下降。
为缓解这一问题，借鉴先前 1.58 比特 BitNet 的设计原则，本文在每个 Transformer 模块内的关键位置引入了额外的归一化层（SubLN），以实现稳定的优化过程。
第二阶段：持续预训练阶段。
如图 1 所示，直接将已有的全精度 LLM 转换为 1.58 比特 BitNet 并在下游任务上进行微调，往往会得到次优结果。这是因为有限的训练 token 数量不足以有效地将全精度权重适配到受限的 1.58 比特表示空间中，从而导致可扩展性较差：随着模型规模的增大，其性能与全精度基线之间的差距也随之扩大。
为此，本文提出了一个两阶段训练流程：首先进行持续训练阶段，利用少量预训练语料来实现所需的适配；随后再在下游任务上进行微调。
第三阶段：基于蒸馏的微调。
为更有效地缓解由精度降低带来的性能退化，本文在下游任务微调阶段引入了两种知识蒸馏技术：其中，微调后的全精度 LLM 作为教师模型，而其 1.58 比特量化版本作为学生模型，通过蒸馏过程进行学习与性能对齐。
蒸馏过程主要利用 logits 蒸馏和多头注意力蒸馏来恢复全精度性能。

实验
实验设置
BitDistill 方法的有效性在两个代表性任务上进行评估：文本分类与文本摘要。分类任务采用通用语言理解评估 (GLUE) 基准中的 MNLI、QNLI 与 SST-2 三个数据集，摘要任务使用 CNN/DailyMail (CNNDM) 数据集。所有数据集均用于训练与评估，以全面验证方法性能。
BitDistill 的目标是将预训练的全精度大语言模型 (LLM) 微调为适用于下游任务的 1.58-bit BitNet 模型。比较对象包括：
(1) 在相同任务上直接微调的全精度 FP16 模型 (FP16-SFT)；
(2) 将全精度模型量化为 1.58-bit BitNet 后再微调的模型 (BitNet-SFT)。
实验以 Qwen3 系列为基础模型，涵盖 0.6B、1.7B 与 4B 三种规模，并额外测试了 Qwen2.5 与 Gemma 等替代骨干网络以评估模型类型影响。所有方法均采用贪心搜索确定学习率与训练轮数，以兼顾性能与公平比较。最大训练序列长度设为 512，批大小为 32，所有模型均在配备 8 块 AMD Mi300X GPU 的服务器上训练。
Logits 蒸馏温度设为 5.0；分类任务中 λ=10、γ=1e5，摘要任务中 λ=1、γ=1e3，所有实验中 αi=1.0。持续预训练阶段使用 FALCON 语料库中采样的 100 亿个 token，与从头训练 1.58-bit 模型所需的约 4 万亿个 token 相比，成本几乎可忽略。
评估设置
采样参数固定为 top-p=1.0、温度 = 0。分类性能以准确率衡量，摘要性能使用 BLEU、ROUGE-1/2/L/SUM 评估，最大生成长度为 4096 token。运行时效率通过 16 线程 CPU 的 token 吞吐量（tokens/s）报告。
主要结果
BitDistill 在各基准数据集上表现如表 1 与表 2 所示。与全精度基线相比，1.58-bit 模型在准确率和摘要质量上保持接近性能，同时推理速度提升约 2 倍，内存占用减少近 10 倍，展示出在资源受限环境下的显著优势。这表明通过合理蒸馏策略，激进量化仍可实现高性能。

文本分类任务上的结果。所有模型均由 Qwen3 系列 [QY+25] 初始化。每个指标和数据集的最高分均以粗体突出显示。1.58-bit 的 BitDistill 模型实现了与 FP16 基线相当的性能，同时在所有数据集上将推理速度提升了 2 倍，并将内存占用降低了 10 倍。符号 * 表示在 BitDistill 中所使用的 FP16 教师模型。

文本摘要任务（CNNDM 数据集）上的结果。所有模型均由 Qwen3 系列 [QY+25] 初始化。每个指标和数据集的最高分均以粗体突出显示。1.58-bit 的 BitDistill 模型实现了与 FP16 基线相当的性能，同时在所有数据集上将推理速度提升了 2 倍，并将内存占用降低了 10 倍。符号 * 表示在 BitDistill 中所使用的 FP16 教师模型。
将基础模型替换为 Qwen2.5 和 Gemma 后，BitDistill 仍保持稳定性能（见表 4）。虽然不同预训练模型间存在轻微波动，但整体趋势一致，显示该方法具备跨架构通用性和良好的部署适应性。

不同量化技术在文本分类任务上的结果。B、G、A 分别代表块量化、GPTQ 和 AWQ。
消融实验
BitDistill 包含三个阶段。消融实验表明，移除任一阶段均显著降低性能（表 5），说明各阶段相互补充，完整流程对效率与准确率平衡至关重要。

BitDistill 中不同阶段的效果。此处使用 Qwen3 0.6B 作为基础模型。M.D.、C.T. 和 D.T. 分别表示建模优化、持续预训练以及基于蒸馏的微调。
在第三阶段中，单独使用 logits 蒸馏或注意力蒸馏均能提升性能，但联合使用效果最佳（表 6）。两种技术从不同角度缓解量化优化难题，其协同作用在极低比特环境下尤为显著。

蒸馏技术的效果。此处，LD 表示公式 9 中的 logits 蒸馏，AD 表示公式 12 中的多头注意力蒸馏。
BitDistill 与 Block-Quant、GPTQ、AWQ 等多种量化方案兼容。实验显示：(1) 无论底层量化方法为何，BitDistill 均能稳定提升性能；(2) GPTQ、AWQ 等复杂量化策略在其基础上进一步增强效果。这表明 BitDistill 提供了一种普适的低比特模型增强框架。
分析
在阶段一中插入 SubLN 层能稳定 1.58-bit BitNet 的优化并加速收敛。如图 3 (a) 所示，带 SubLN 的模型在 FALCON 语料库上的微调表现优于未使用 SubLN 的版本。

(a) 使用 SubLN 将现有的大语言模型 (LLMs) 微调为 1.58-bit BitNet，可以获得更优的性能和更快的收敛速度。
持续训练可显著缩小大模型的 1.58-bit 与 FP16 性能差距。权重分布可视化（图 2）显示，经过持续训练后，BitNet 权重从近似高斯分布转变为更接近从头训练的分布。该特征促使权重集中于 0 与 ±1 过渡区域，增加梯度更新的敏感度，从而提升模型对下游任务的拟合能力。

模型权重的可视化。上面两行展示了从头开始训练的 BitNet 的量化权重，及其对应的 FP16 分布。下面两行展示的是从 LLM 加载权重并进行持续训练后，BitNet 的量化权重及其对应的 FP16 分布。
在第三阶段，单层注意力蒸馏优于多层蒸馏（图 3 (b)）。后期层的蒸馏效果更佳，表明层选择对蒸馏质量至关重要。

(b) 在 Qwen3 0.6B 模型上，通过蒸馏不同层所获得的 MNLI 准确率对比。
使用更大规模的 FP16 教师（如 Qwen3-1.7B、Qwen3-4B）显著提升学生模型性能（图 3 (c)），甚至超越同规模的 FP16 模型，证明高质量教师能为 BitDistill 带来额外收益。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

时隔三年推新车、切入SUV赛道，欧拉不想困在“猫系”里

何小鹏谈AI：当前没泡沫，物理AI未来三年将迎来关键突破

意想不到！AMD突然发布RX 9060 XT LP显卡：降至140W功耗

香港连锁药妆万宁将关闭内地门店，有线下店员：已在清仓，积分到期将清零

推动5G-A与AI融合——中国移动助力广西打造面向东盟的低空经济创新高地

欧拉品牌转型从欧拉5开始，魏建军要发布购车防忽悠指南

全站最新

时隔三年推新车、切入SUV赛道，欧拉不想困在“猫系”里

何小鹏谈AI：当前没泡沫，物理AI未来三年将迎来关键突破

意想不到！AMD突然发布RX 9060 XT LP显卡：降至140W功耗

香港连锁药妆万宁将关闭内地门店，有线下店员：已在清仓，积分到期将清零

热门推荐

明起复牌！中金公司收购东兴、信达预案出炉，“超级投行”更进一步

鲸观察｜量化私募产品近一周过半收益 “告负”，“拔网线”预期或冲击高频策略但中低频无恙

BBA车主集体倒戈？岚图泰山撕开中国豪华车新标签

日本发射任务，紧急停止

时隔三年推新车、切入SUV赛道，欧拉不想困在“猫系”里

何小鹏谈AI：当前没泡沫，物理AI未来三年将迎来关键突破

三星成内存涨价潮受益者之一，、明年营业利润有望达730亿美元

意想不到！AMD突然发布RX 9060 XT LP显卡：降至140W功耗

香港连锁药妆万宁将关闭内地门店，有线下店员：已在清仓，积分到期将清零

取得多项独有重大成果！性能远超国际同类设备

推动5G-A与AI融合——中国移动助力广西打造面向东盟的低空经济创新高地

欧拉品牌转型从欧拉5开始，魏建军要发布购车防忽悠指南

公牛灵犀智能开关发布：蓝牙Mesh 2.0，支持米家App、小爱控制

巨头激战“人车家”：小米未来5年投2000亿元！华为、比亚迪等跨界入局

联想摩托罗拉与鸿日达设立3D打印联合实验室瞄准通信设备轻量化、结构设计复杂化升级需求