![]()
导读 过去两年,小语言模型(SLM)在业界备受关注:参数更少、结构更轻,理应在真实部署中 “更快”。但只要真正把它们跑在 GPU 上,结论往往令人意外 —— 小模型其实没有想象中那么快。
参数缩小了,延迟却常常没有同步下降;结构轻量化了,吞吐却未必提升。这并非个别模型的问题,而是小模型设计长期忽略了一个根本事实:“模型更小” 并不等于 “延迟更友好”。
英伟达研究院就是从这一盲区重新出发:不是把大模型简单缩小,而是把 “真实 GPU 延迟” 作为结构设计的第一原则,全面重构小模型应该长成的样子。最终构建的 Nemotron-Flash 模型同时实现了 SOTA 准确率、低延迟、高吞吐,打败了众多业界小模型。Nemotron-Flash 已集成进 TensorRT-LLM,单 H100 GPU 吞吐可达 41K tokens/second。
![]()
该论文已被 NeurIPS 2025 接收,相关海报将于 12 月 4 日在 San Diego 展示。
![]()
论文链接:https://arxiv.org/pdf/2511.18890Hugging Face:
https://huggingface.co/nvidia/Nemotron-Flash-1B
https://huggingface.co/nvidia/Nemotron-Flash-3B
https://huggingface.co/nvidia/Nemotron-Flash-3B-Instruct
一、小模型为何不够快?
真正跑在 GPU 上之后,一切才暴露
英伟达的分析揭示:小模型之所以不快,是三个长期被忽视的因素造成的:
首先,是深宽比本身就是一个矛盾体。等参数比较时,模型越深往往越强;但在真实 GPU 上,延迟对 “层数” 极为敏感:层越多,kernel 调度越频繁,延迟就越高。结果是一个反直觉的事实:想强要变深,想快要变宽。而大多数小模型都深而窄,自然在延迟上吃亏。
其次,Attention 成本依然是实现高吞吐的最大瓶颈。然而业界对 Mamba2、DeltaNet 等高效算子的组合方式一直缺乏系统方法:哪些层该用 Attention,哪些层应该交给 Linear Attention?没有明确答案。
最后,小模型训练在后期往往会 “提前退场”。权重尺度逐渐偏移、有效梯度下降、模型停滞不前 —— 结构设计再好,容量也无法充分释放。许多小模型的最终性能其实被训练本身限制住了,而不是被参数量限制。
英伟达正是从这三点出发,重新回答了 “小模型应该长成什么样” 这一根本问题。
二、Nemotron-Flash 的核心方法
从延迟重新定义小模型结构
Nemotron-Flash 的方法论围绕三个关键突破展开,每一个都基于真实 GPU 延迟,而非理论 FLOPs。
1. 深宽比优化:深度负责能力,宽度负责速度,关键是找到黄金点
Nemotron-Flash 的大量真实设备实验揭示了小模型容易被忽略的规律:等参数下,越深越强;等延迟下,越宽越快。这两者天然冲突,意味着:深宽比不是一个随手调的超参,而是决定小模型最终能力和延迟的核心结构维度。
通过绘制 “准确率–延迟” 曲线,以及拟合准确率和模型深度 / 宽度的 scaling law,英伟达最终找到一个稳定的结论:模型必须 “足够深” 才能保住表达能力;也必须 “足够宽” 才能降低实际延迟;最优结构正是深宽交汇的黄金点。Nemotron-Flash-1B/3B 就是根据这套规律得到的结构,因此既不 “深得拖速度”,也不 “宽得能力不足”。
![]()
2. 混合算子结构:真正的速度来自 “谁和谁搭配”,而不是单一的替代
Nemotron-Flash 的结构创新并不是简单 “换上新算子”,而是为不同算子明确角色分工,并系统探索它们的最佳协作方式。英伟达先研究了各类算子的准确率–延迟 trade-off,据此构建搜索空间,再使用遗传算法寻找算子在不同层之间的最优比例与位置。最终得到的架构由 Attention、Mamba2、DeltaNet 和 FFN 共同组成,各自承担不同职责:
Attention 负责全局依赖,但必须谨慎控制数量与位置。Mamba2、DeltaNet 等 Linear Attention 负责高吞吐的局部建模,是速度的主力层。FFN 提供稳定的表达容量,是所有 block 的基础骨架。
Nemotron-Flash 的结果显示,小模型的能力和速度不取决于某个 “更好的” 算子,而取决于算子之间的协作模式。这进一步证明:面对真实延迟优化时,混合架构往往比任何单一结构更具优势。
3. Weight Normalization:让小模型在训练后期不再 “掉链子”
英伟达观察到,小模型训练后期权重矩阵内部会逐渐形成 structured outliers:随着训练推进,部分行或列会系统性地放大,出现远高于整体分布的大幅值结构,成为随着优化过程累积产生的 “结构化巨权重”。问题在于:这些巨权重会拖慢乃至冻结训练后期的进展。 当某些方向的权重范数过大时,反向传播的梯度在这些方向上被不断缩放,导致 effective learning rate 急剧下降。模型看似还在更新,但实际已经 “踩不动油门”,无法继续提升。
![]()
Nemotron-Flash 的解决方案非常直接有效:在训练过程中的每个 training iteration 后,对每个线性层施加显式 weight normalization,即将模型权重投影到单位范数球面上。这一归一化步骤去除了径向分量,使更新主要发生在角度方向。在相同梯度幅度下,这会带来更大的相对权重变化。
效果立竿见影:训练后期梯度不再被巨权重 “吃掉”,小模型可以持续学习,不会出现常见的 “后期停滞”。在各种模型上,最终收敛质量明显高于未使用 weight normalization 的基线模型。
![]()
三、Nemotron-Flash Model Family:又快又强
Nemotron-Flash 结合了上面所有技术,提供 1B 和 3B 两种模型大小。在 H100 上的实测结果显示:
Nemotron-Flash-1B 相比 Qwen3-0.6B,准确率提升 5.5%,端侧推理延迟(batch size=1)快 1.9×,最大吞吐高出 45.6×;Nemotron-Flash-3B 相比 Qwen2.5-3B 与 Qwen3-1.7B,准确率提升 2%~5.5%,端侧推理延迟(batch size=1)快 1.3×~1.7×,最大吞吐提升 6.4×~18.7×;Instruct 版本同样领先,准确率提升约 4.7%,吞吐最高可达 18.7×。
![]()
Nemotron-Flash 的速度与稳定性让小模型真正具备 “可规模部署” 的能力,能够在关键业务场景中提供持续、可靠且低延迟的体验 —— 例如在高并发在线服务 中(如搜索助手、智能客服),更快的响应与更高吞吐意味着同样的 GPU 可以服务更多用户且体验更顺滑;在端侧与边缘设备 上(如家用机器人、可穿戴 XR),Nemotron-Flash 的宽结构与高速算子让设备在有限算力下依然能保持实时反应;而在成本敏感的企业私有化部署 场景(如金融、医疗),Nemotron-Flash 是既省成本又能落地高质量 AI 功能的理想选择。
结语
小模型的未来不是 “更小”,而是 “更快、更稳、更强”。Nemotron-Flash 提供了小模型设计的新底层逻辑:深宽比必须围绕延迟设计;算子组合必须有角色分工;训练必须保持后期稳定性。通过这套方法,小模型摆脱了 “虽然小但不快” 的悖论,真正实现了:小而强,小而快,小而可用。
作者简介
文章第一作者为 Yonggan Fu (傅泳淦),目前为英伟达研究院科学家。2025 年 5 月于 Georgia Institute of Technology 获博士学位,2019 年毕业于中国科学技术大学少年班学院,双修应用物理与计算机科学。博士期间获得 IBM PhD Fellowship 及 ML & Systems Rising Stars 2023。目前研究方向为高效大模型架构与算法。





京公网安备 11011402013531号