当前位置: 首页 » 资讯 » 新科技 » 正文

英伟达成开源新王?Nemotron 3全新混合专家架构,推理效率升4倍

IP属地 中国·北京 机器之心Pro 时间:2025-12-16 18:08:03



机器之心编辑部

英伟达的自研大模型,刚刚有了大版本的更新。

北京时间今天凌晨,英伟达发布了 Nemotron 3 系列开放模型,共三种规模,分别为Nano、Super 和 Ultra

Nemotron 3 Nano:300 亿参数规模的小模型,每次最多激活约 30 亿参数,适用于高度定向、极致高效的任务。Nemotron 3 Super:约 1000 亿参数的高精度推理模型,每个 token 最多激活 100 亿参数,面向多智能体应用。Nemotron 3 Ultra:约 5000 亿参数的大型推理引擎,每个 token 最多激活 500 亿参数,适用于复杂 AI 应用场景。



其中 Nemotron 3 Nano 已在 Hugging Face 上线,是目前计算成本效率最高的模型,针对软件调试、内容摘要、AI 助手工作流和信息检索等任务进行了优化,可显著降低推理成本。该模型采用独特的混合 MoE 架构,在效率与可扩展性方面实现了显著提升。

Nemotron 3 Nano 的总参数规模为 316 亿,激活参数规模为 32 亿(包含嵌入层为 36 亿)。在每次前向推理过程中,其激活的参数数量不到上代 Nemotron 2 Nano 的一半,却实现了更高的准确率。

与 Nemotron 2 Nano 相比,Nemotron 3 Nano 实现了最高 4 倍的 Token 吞吐量提升,并将推理阶段生成的 Token 数量减少最高 60%,显著降低推理成本。同时,100 万 Token 的上下文窗口使 Nemotron 3 Nano 具备更强的长期记忆能力,在多步骤、长链路任务中表现更为准确。

对于另外两款模型,Nemotron 3 Super 擅长需要大量协作智能体、且对低延迟要求极高的复杂任务;Nemotron 3 Ultra 则作为高级推理引擎,适用于深度研究与战略规划等高复杂度 AI 工作流。

斯坦福大学计算机科学副教授 Percy Liang 表示,这不仅仅是一个强大的开源模型。Nemotron 发布了训练数据、强化学习环境和训练代码。这意义重大:几乎所有模型开发者都只是希望人们使用他们的模型;而英伟达则让用户能够创建自己的模型。



英伟达认为,随着企业从单一模型聊天机器人转向协同工作的多智能体 AI 系统,开发者正面临通信开销高、上下文漂移以及推理成本居高不下等挑战。同时,能够支撑复杂工作流自动化的模型,必须具备足够的透明性与可解释性,才能赢得开发者与企业的信任。

Nemotron 3 正是为应对这些问题而生,为构建专业级智能体 AI 提供所需的性能与开放性。

英伟达创始人兼首席执行官黄仁勋表示:「开放式创新是 AI 进步的基石。通过 Nemotron,我们正在将先进 AI 转变为一个开放平台,为开发者提供在规模化构建智能体系统时所需的透明性与效率。」

Nemotron 3 系列的首款模型 Nemotron 3 Nano(30B-3A)已于今日上线,Nemotron 3 Super 和 Ultra 预计将于 2026 年上半年正式推出。



技术介绍

Nemotron 3 系列模型的核心技术包括如下:

混合 MoE(Hybrid MoE)

Nemotron 3 系列模型采用 Mamba-Transformer 混合 MoE 架构。在实现业界领先吞吐率的同时,其准确率优于或不逊于传统 Transformer 模型。

具体来说,传统方法通常将 MoE 层与代价昂贵的自注意力层交替堆叠,而自注意力机制在生成过程中需要随着序列变长,不断扩展 KV Cache,其计算和存储成本线性增长。

而 Nemotron 3 模型的核心改进是:大量采用 MoE 层与成本更低的 Mamba-2 层交替堆叠。Mamba-2 在生成时只需存储固定大小的状态(constant state),无需维护不断扩张的 KV Cache。

因此,只有少量自注意力层会被保留用于特定功能。图 1 展示了 Nemotron 3 Nano 的层级结构模式。



LatentMoE

Transformer 模型在不同部署场景下会遇到不同的性能瓶颈:低时延场景主要受限于内存带宽,高吞吐场景则受限于 MoE 的 all-to-all 通信。为同时兼顾速度与模型质量,英伟达提出了 LatentMoE 架构。

LatentMoE 的核心做法是:先将 token 从原始隐藏维度投影到更小的潜在维度,在这个低维空间中进行专家路由和计算,再投影回原维度。这样不仅减少了专家权重加载和通信成本,还能利用节省下的带宽与参数,增加专家数量和每个 token 激活的专家数,提高模型表达能力。



多 Token 预测(Multi-Token Prediction, MTP)

MTP 已经成为一种显著提升大语言模型准确率和推理效率的有效技术。已有研究包括 DeepSeek V3 以及最早提出 MTP 的工作表明:让模型一次预测多个未来 token,不仅能够提供更丰富的训练信号,还能促使模型提前规划多个推理步骤。

在 Nemotron 3 中引入 MTP 后,模型在验证集损失以及多个下游任务中都获得了稳定提升,包括通识知识、代码生成、常识推理、阅读理解和数学。

从系统层面看,MTP 仅引入极少量额外 FLOPs,并能无缝集成到训练流程中,同时带来可观的 speculative decoding 加速收益,整体效率依然保持极高水平。

NVFP4 低精度训练格式

英伟达在 NVFP4 数值格式下,成功实现了在 Mamba–MoE 混合架构上对最高 25 万亿(25T)tokens 的稳定且高精度的预训练。模型的权重、激活值和梯度均被量化为 NVFP4,使得前向传播、反向传播中的梯度计算和权重更新都可以使用 NVFP4 GEMM 运算。在 GB300 芯片上,FP4 的峰值吞吐量是 FP8 的 3 倍。

超长上下文(Long Context)

Nemotron 3 系列模型被设计为支持最长 100 万(1M)token 的上下文长度,以满足大规模、多轮、具备 Agentic 推理的应用需求。

在传统 Transformer 中,旋转位置编码(RoPE) 是扩展上下文长度的主要瓶颈,因为 RoPE 在超过训练长度时会出现明显的分布外退化问题。而 Nemotron 3 使用的 Mamba 层天然具备隐式位置信息,因此模型在注意力层中完全不使用 RoPE,从而避免了 RoPE 带来的上下文扩展限制。

除了上述关键技术之外,Nemotron 3 系列模型还引入了两项面向实用性的核心能力,进一步增强了模型在真实世界应用中的可靠性、灵活性与泛化表现。

多环境强化学习后训练(Multi-environment RL Post-training):Nemotron 3 模型在后训练阶段使用多种强化学习环境进行训练,使模型在广泛任务范围内实现更高的准确性与泛化能力。

推理阶段精细化推理预算控制:Nemotron 3 模型在训练时即支持推理阶段的计算 / 推理预算精细控制,可在实际部署中根据任务复杂度灵活权衡推理深度、性能与成本。

更多技术细节请参阅技术报告:



论文地址:https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-White-Paper.pdf论文标题:NVIDIA Nemotron 3: Efficient and Open Intelligence

有趣的是,Nemotron 3 贡献者名单长达 2 页多,参与人数之庞大在开源模型中也是少见,足见这一系列模型背后投入的研发规模与工程复杂度。

Nemotron 3 表现

如下图所示,在覆盖多个类别的主流基准测试中,Nemotron 3 Nano-30B-A3B 的准确率优于 GPT-OSS-20B 和 Qwen3-30B-A3B-Thinking-2507。

在单张 H200、8K 输入 / 16K 输出配置下,Nemotron 3 Nano 的推理吞吐量是 Qwen3-30B-A3B 的 3.3 倍,是 GPT-OSS-20B 的 2.2 倍。

支持最长达 100 万 Token 的上下文长度,并且在不同上下文长度下的 RULER 基准测试中,性能均优于 GPT-OSS-20B 和 Qwen3-30B-A3B-Instruct-2507。



另外,独立 AI 基准评测机构 Artificial Analysis 将 Nemotron 3 Nano 评为同规模模型中最开放、最高效的模型之一,并具备领先的准确率。



目前,Nemotron 3 Nano 的多种型号模型、数据、模型配方均已开源。



得益于采用了 NVIDIA Blackwell 架构上的超高效 4-bit NVFP4 训练格式,Nemotron 3 Super 和 Ultra 可以大幅降低内存需求并加快训练速度,使得在现有基础设施上训练更大规模模型成为可能,同时在准确性上不逊于更高精度格式。

通过 Nemotron 3 模型家族,开发者可以根据具体工作负载选择最合适的开放模型,在从数十到数百个智能体的规模下灵活扩展,同时获得更快、更精准的长程推理能力。

面向智能体定制的全新开放工具与数据

英伟达同步发布了一整套训练数据集与先进的强化学习库,面向所有构建专业化 AI 智能体的开发者开放。

其中,囊括 3 万亿 Token 的全新 Nemotron 预训练、后训练及强化学习数据集,涵盖丰富的推理、编程和多步骤工作流示例,可用于打造高度专业化的领域智能体。

Nemotron 智能体安全数据集(Agentic Safety Dataset) 提供真实世界的遥测数据,帮助团队评估并强化复杂智能体系统的安全性。



更多数据集请参阅:https://huggingface.co/nvidia

为了加速开发,英伟达还开源了 NeMo Gym 与 NeMo RL 库,提供 Nemotron 模型所需的训练环境和后训练基础,并推出 NeMo evaluator 用于验证模型的安全性与性能。所有工具和数据集现已在 GitHub 和 Hugging Face 上开放。

目前,Nemotron 3 已获得 LM Studio、llama.cpp、SGLang 和 vLLM 的支持。此外,Prime Intellect 与 Unsloth 正将 NeMo Gym 的即用型训练环境直接集成到其工作流中,使团队能够更便捷地开展强化学习训练。

https://nvidianews.nvidia.com/news/nvidia-debuts-nemotron-3-family-of-open-models

https://research.nvidia.com/labs/nemotron/Nemotron-3/

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。