当前位置: 首页 » 资讯 » 新科技 » 正文

英伟达祭出NVFP4核弹:大模型训练根本性转变,GB300效率狂飙7倍

IP属地 中国·北京 编辑:柳晴雪 AI寒武纪 时间:2025-08-27 22:12:10


最近这几天因为DeepSeek这句话彻底了引爆了国产芯片和股市:DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的参数精度,UE8M0 FP8是针对即将发布的下一代国产芯片设计

没想到英伟达今天直接放出王炸,推出了一种新的格式NVFP4,这个NVFP4能以 4-Bit 的速度与效率,实现 16-Bit 的生产件级训练精度,毫不夸张的说使用 NVFP4 进行模型预训练,标志着 LLM 开发的重大飞跃,这是对如何大规模训练大型模型的一次根本性转变

NVFP4 训练目前仍处于研究阶段,正在探索和验证 4-bit 精度在大型模型预训练中的潜力。NVIDIA 正在与亚马逊云科技(AWS)、Cohere、谷歌云、Kimi AI、微软 AI、Mistral、OpenAI、Perplexity、Reflection 和 Runway 等领先组织积极合作,持续围绕 NVFP4 进行协同攻关

什么是 4-bit 量化?

4-bit 量化是指将模型权重和激活值的精度降低到仅 4 比特的过程——这与典型的 16-bit 或 32-bit 浮点格式相比是显著的下降

使用 4-bit 进行预训练极具挑战性,因为必须非常小心地处理梯度和更新,以在提高整体训练速度的同时保持准确性。这需要专门的技术和方法,在将高精度张量映射到更小的一组量化值的同时保持其有效性

更少的比特如何为 AI 工厂解锁更强能力

训练后量化(PTQ)已证明 NVFP4 在提升推理吞吐量方面是一个力量倍增器,同时保持了准确性。但一个挑战仍然存在于上游的预训练阶段——在这里,基础模型仍然依赖 BF16 或 FP8 来保证稳定性和收敛性。

训练是 AI 工厂消耗大部分计算、电力和时间的地方。电力预算是固定的,GPU 周期是稀缺资源,因此开发者必须充分利用每一个比特、每一个令牌和每一个训练周期(epoch)。在这里,吞吐量不是一个抽象的指标——它直接决定了可以构建的模型规模、可以运行的实验数量以及取得突破的速度。

这正是 4-bit 精度变得具有变革性的地方。通过削减内存需求、提升算术吞吐量和优化通信,4-bit 预训练使 AI 工厂能够用相同的硬件处理更多的令牌。通过正确的量化方法,它可以提供与 FP8/BF16 相媲美的准确性,同时显著提高吞吐量——从而解锁更快的收敛周期、单位算力下更多的实验次数,以及扩展到前所未有的前沿模型。换句话说,更少的比特不仅节省了成本——它们还扩展了 AI 所能达到的前沿

核心方法解读:用于预训练的 NVFP4 量化方法

为了实现 4-bit 精度的预训练,英伟达开发了一套专用的 NVFP4 预训练方法,旨在解决大规模训练中的核心挑战:动态范围、梯度波动性和数值稳定性

Blackwell 是 英伟达 首款原生支持 FP4 格式的架构。GB200 和 GB300 提供的海量 FP4 FLOPs 吞吐量通过加速低精度矩阵运算,同时保持大型模型收敛所需的规模和并行性,实现了高效的 4-bit 训练

下图展示了 Blackwell Ultra 的实测 GEMM(通用矩阵乘法)性能,其速度比 Hopper 架构提升了 7 倍。现代 LLM 从根本上依赖矩阵乘法作为其核心计算元素,尤其是在其全连接层或线性层中。这使得这些运算的效率至关重要。由于 FP4 精度能够实现更快、更高效的运算执行,所观察到的 GEMM 加速意味着整个预训练过程——从前向传播到梯度更新——都运行得更快,从而缩短了训练时间,同时支持了更大规模模型的快速开发


为了实现高效的低精度训练,英伟达的 NVFP4 预训练方法利用了若干基于其性能和准确性而挑选的关键技术。这些技术包括:

通过 NVFP4 的微块缩放增强数值表示:Blackwell 引入了对 NVFP4 的原生 Tensor Core 支持。NVFP4 是一种用于权重和激活值的 4-bit 数字格式,它使用微块缩放技术——即每组 16 个 4-bit 元素共享一个共同的缩放因子。与 MXFP4 相比,NVFP4 将块大小从 32 个元素减少到 16 个,从而最大限度地减少了异常值的影响,并实现了更精确的缩放。这种更精细的粒度降低了量化误差,并提高了整体模型准确性

使用 E4M3 缩放因子进行 NVFP4 高精度块编码:缩放因子的精度对量化质量和准确性起着至关重要的作用。与 MXFP4 不同,MXFP4 仅限于 2 的幂次方的缩放因子(E8M0),容易产生较高的舍入误差。而 NVFP4 使用更高精度的 E4M3 缩放因子,并带有额外的尾数位。这允许更细粒度的缩放、更好地利用有限的量化区间,以及更准确地表示块内的数值

重塑张量分布以适应低精度格式:LLM 预训练期间的梯度和激活值往往带有较大的异常值,这会影响低精度量化。对 GEMM 的输入应用哈达玛变换(Hadamard transforms)有助于将其分布重塑为更接近高斯分布的形态,从而平滑异常值,使张量更容易被准确表示。这些变换对模型架构是透明的,可以应用于前向和后向传播中的线性层。

通过量化技术保持保真度:为了确保稳定高效的训练,英伟达采用的量化方法能够保持前向传播和后向传播之间的一致性。诸如选择性二维块式量化等技术有助于在整个训练周期中维持张量表示的对齐。这种一致性对于最大限度地减少信号失真、改善收敛行为和增强整体鲁棒性至关重要——尤其是在使用像 NVFP4 这样的低精度格式时。

通过随机舍入减少偏差:与传统的(确定性)舍入总是将梯度舍入到最接近的可表示数值不同,随机舍入确保梯度是随机向上或向下舍入的,其概率与一个数离两个可表示值之间的距离成正比。这一步骤对于减少舍入偏差、在训练期间维持梯度流,并最终提高模型准确性至关重要


实验验证:万亿级令牌规模下的准确性与稳定性

为了进行模型训练,英伟达在一个基于 Mamba-Transformer 混合架构的 120 亿参数模型(12B Hybrid Mamba-Transformer model)上,使用 FP8 和 NVFP4 进行了实验——该模型类似于 NVIDIA Nemotron Nano 2。这个模型在一个包含 10 万亿令牌的大规模数据集上进行训练,采用了分阶段数据混合方法,在训练的 70% 切换到不同的数据集组合,在 90% 时再次切换。

该 12B 混合 Mamba-Transformer 模型的一个版本最初使用 8-bit 精度(FP8)进行训练,此前的研究已证明 FP8 能与 16-bit 精度高度匹配,因此英伟达将其作为比较的基准。随后,研究人员成功地使用 NVFP4 从头开始训练了同一个 12B 模型,证明了这种新的低精度格式能够支持万亿级令牌规模的完整预训练。NVFP4 的运行展现了稳定的收敛性,没有出现通常困扰超低精度训练的训练不稳定或发散问题

下图显示,在整个训练期间,NVFP4 的验证损失曲线与更高精度的基准(即 FP8)的损失曲线高度吻合。上文概述的量化技术确保了即使在激进的位宽缩减下,4-bit 预训练的动态过程也与高精度运行非常相似


接着,英伟达将使用 NVFP4 预训练的 12B 混合 Mamba-Transformer 模型与更高精度的 FP8 基准模型在一系列下游任务和智能领域进行了比较。

下图表明,在所有领域中,NVFP4 的性能都与 FP8 相当,突显了其有效性。这一发现强化了最初的假设:NVFP4 是一个强大的选择,即使在万亿级令牌规模下预训练 LLM 也能胜任——突显了其在高效大规模前沿模型训练中的潜力


很明显国内以DeepSeek为代表正在推动国产芯片推理和训练,UE8M0 FP8还仅仅是国产芯片推理侧的设计,训练侧任重道远,国际上英伟达作为垄断性的存在也没躺在王座上啥都不干,这个NVFP4作为一个标准估计很快就会显示出强大威力

参考:

https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit/

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。