当前位置: 首页 » 资讯 » 新科技 » 正文

今夜无显卡!老黄引爆Rubin时代,6颗芯狂飙5倍算力

IP属地 中国·北京 新智元 时间:2026-01-06 10:05:21


新智元报道

编辑:编辑部

刚刚的CES 2026上,老黄带着Vera Rubin超算架构向全世界走来!Rubin的推理性能比Blackwell提升了5倍,训练性能提升3.5倍,成本降低10倍,已经大规模投产,将于2026下半年面世。没有新显卡的昨夜,老黄表示all in AI!

天空一声巨响,全新版本的「皮衣老黄」闪亮登场。


在本次CES演讲中最为激动人心的瞬间,就是英伟达全新一代芯片架构——Vera Rubin正式登场!

全球AI算力告急?老黄霸气回应:Vera Rubin已全面投产。

这是新一代的算力怪兽,也是对上一代霸主Blackwell的降维打击——

推理Token成本直接暴降10倍,算力性能狂飙5倍。

就连训练MoE模型所需的GPU数量,也直接减少了4倍。

曾经,Blackwell终结了Hopper;如今,Rubin亲手埋葬了Blackwell。


全程近两小时演讲,老黄提及重点包括——

下一代Rubin平台亮相:六颗芯片,推理狂飙十倍

自动驾驶端到端模型:AlphaMayo会思考、自主推理,全程0接管上路

物理AI全家桶开源:基础模型、框架

玩家彻夜难眠:CES 2026,没有显卡

至于游戏玩家?

对不起,这次真的没有新显卡。


英伟达在X上的一纸公告,彻底击碎了「攒机党」最后的幻想:CES 2026将没有任何新GPU发布。

这意味着,英伟达自2021年以来连续五年在CES发布新硬件的传统,就此终结。

传闻已久的RTX 50 Super系列,受困于GDDR7显存的「产能地狱」,大概率已经胎死腹中。

Rubin炸裂登场

6颗芯片,10倍推理,AI超算变工厂

去年10月,老黄曾立下军令状:未来五年,英伟达将砸下30到40万亿美元,死磕AI基础设施。

随着Vera Rubin的大规模投产,这一豪言壮语正在兑现。

如果说Blackwell打破了单卡性能的极限,那么Rubin解决的则是系统规模化的难题。

从此,算力将像电力一样廉价,AI的大爆发已近在咫尺!


2024年,Vera Rubin架构首次亮相。

等了两年,现在它终于正式投产了!

Blackwell架构,从此将退出历史舞台。

演讲现场,老黄告诉大家:AI所需的计算量急剧飙升,怎么办?不用怕,Vera Rubin,将解决我们面临的根本性挑战!

这套为万亿参数模型的海量推理而生的平台,会彻底让算力低成本、规模化、工业化生产。

Rubin架构,以天文学家Vera Florence Cooper Rubin而命名。


可以说,Rubin是英伟达第一次把CPU、GPU、网络、存储、安全,当成一个整体来设计。

核心思路就是:不再「堆卡」,而是把整个数据中心变成一台AI超算。

整个Rubin平台,由这6个关键组件构成。



其中,Rubin GPU是整个平台的核心。它搭载第三代Transformer引擎,为AI推理提供50 PFLOPS的NVFP4算力。

之所以能达到Blackwell GPU性能的5倍,是因为它的NVFP4张量核心,后者能分析Transformer各层的计算特性,动态调整数据精度与计算路径。


另外,该架构还引入一颗全新的Vera CPU,专为智能体推理而设计。

它采用88个英伟达自研Olympus核心,完全兼容Armv9.2,并具备超快的NVlink-C2C 连接,能实现176个线程的全性能执行,I/O带宽和能效比直接翻倍。


当我们在Agentic AI或长期任务中启用全新的工作流时,会对KV cache造成很大压力。

为了解决存储和互联的瓶颈,Rubin架构特别改进了Bluefield和NVlink系统。它通过外部方式和计算设备相连,这样就能更高效地扩展整体存储池的规模。

BlueField-4 DPU是一个数据处理单元,它能卸载网络、存储和安全任务,还能管理AI的上下文记忆系统。


NVlink 6中,单芯片就能提供每秒400Gb的交换能力。每块GPU提供3.6TB/s 的带宽,而Rubin NVL72机架提供260TB/s,带宽超过整个互联网。

通过3.6 TB/s的带宽和网络内计算能力,它能让Rubin中的72个GPU像一个超级GPU一样协同工作,直接把推理成本打至1/7。


现场,老黄给我们展示了Vera Rubin的托盘。小小的托盘上集成了2颗Vera CPU、4颗Rubin GPU、1颗BlueField-4 DPU和8颗ConnectX-9网卡,整个计算单元算力达到100 PetaFLOPS。



Rubin的目标,是解决MoE和万亿参数模型的训练成本,它做到了吗?显然,成果是显著的。

训练、推理效率暴增

测试结果显示,Rubin架构训练模型时的运行速度,直接达到上一代Blackwell架构的3.5倍(35 petaflops),推理任务的速度则高达5倍,最高可达50 petaflops!

同时,它的HBM4内存带宽提升至22 TB/s,达到2.8倍,单GPU的NVlink互连带宽则翻倍到3.6 TB/s。


在超大规模MoE训练中,Rubin所需的GPU数量相比Blackwell可减少至1/4,同时整体能耗显著下降。

这背后,就有三大功臣。

NVlink 6,让GPU间互联带宽再次大幅提升,多卡训练不再被通信拖慢;Vera CPU与Rubin GPU的协同调度,可以减少「GPU等数据」的空转时间;而ConnectX-9与Spectrum-6的深度协同,也让大模型训练不会再被集群规模限制。



从此,训练万亿模型,不再是「堆钱」,只会是工程问题。

训练解决了,那推理呢?

结果显示,在推理侧,Rubin平台单位token的推理效率提升最高可达10倍!同样的模型和响应延迟,算力成本可以直接下降到原来的1/10。

所以,模型可以跑得起百万token的长下文,企业级AI应用也可以部署了。



存储瓶颈解决

如上文所言,让AI模型多跑一会的关键挑战,就在于上下文数据。


大量KV Cache该如何处理?英伟达推出了由BlueField-4驱动的推理上下文内存存储平台。

这个平台在GPU内存和传统存储之间创建了「第三层」,直接让每秒处理的 token数提升高达5倍。


DGX Super POD

本次CES上,英伟达还推出了新一代DGX SuperPOD。


它把多个装有72个GPU的Rubin NVL72连接起来,形成了更大的AI计算集群。

在这次的DGX SuperPOD中,共有8个Rubin NVL72机架,相当于有576个GPU。


NVIDIA Vera Rubin NVL72 提供统一、安全的系统,集成了72 块Rubin GPU、36块Vera CPU、NVlink 6、ConnectX-9 SuperNICs和BlueField-4 DPUs

这样,SuperPOD就可以处理数千个Agentic AI智能体,以及数百万token上下文。

可以说,英伟达一次性解决了数百个GPU相连、管理存储的问题,直接给我们提供了开箱即用的AI基础设施。



第三代机密计算平台

更为重要的是,Rubin是首个支持第三代机密计算(Confidential Computing)的AI超算平台。

模型参数、推理数据、用户请求都会被全链路加密,即使的云厂商,也无法直接访问明文数据。

这就解决了「敢不敢把核心AI放到云上」的问题,对于金融、医疗、政府、企业私有模型都非常重要。

这些大厂,第一批用上Rubin

老黄介绍说,Rubin会由AWS、Microsoft Azure、Google Cloud、meta、OpenAI这些头部厂商先部署。

而到2026年下半年,Rubin平台就会进入大规模商用阶段。

所以,下一代GPT、Gemini、Claude模型,大概率都会运行在Rubin架构上。


全程0接管,自动驾驶AI「会思考」

如何教会AI物理学的基础事实?

英伟达给出的答案是,把算力变成高质量的数据(Compute is Data)。

在这一体系中,「世界基础模型」Cosmos扮演着重要的角色。

交通模拟器输出的信号,被送入Cosmos再生成合理、运动上连贯的环绕视频,让AI学习其中真实世界的行为模式。


如今,Cosmos已被全球下载数百万次,成为物理AI时代的重要基础设施。在英伟达,内部也在用其做自动驾驶研究。

在此基础上,今天,英伟达正式发布了「端到端」自动驾驶AI——AlphaMayo。

它是一个会思考、会推理的自动驾驶AI。从摄像头输入到车辆执行动作,全流程由模型完成。


AlphaMayo独特之处,在于它具备了显式推理能力。

系统不仅执行转向、制动、加速动作,还会给出即将采取行动的理由,以及对应的形式轨迹。


自动驾驶最大挑战,来自于「长尾场景」,几乎不可能覆盖所有国家、所有道路的数据。

AlphaMayo的策略是将复杂场景,拆解为多个熟悉的物理与交通子问题,通过推理将罕见情况分解为常见组合,完成应对。

在演示中,车辆可以在全程0接管状态下,完成路径规划与行驶,顺利抵达目的地。


在自动驾驶领域,英伟达投入持续了八年,如今第一次把AI「五层架构」完整跑通。

由下到上:实体本身、芯片体系、模型层、基础设施层、应用层,构成了一套完全贯通的AI系统栈。

AlphaMayo构成模型层,梅赛德斯-奔驰汽车构成应用层。

这一次,老黄还官宣了,NVIDIA DRIVE AV软件首次搭载全新梅赛德斯-奔驰 CLA,提供L2级端到端驾驶。


更重磅的是,Alpamayo家族全部开源。这一整套方法论,并不只适用于汽车,同样适用于机器人、机械臂等各类系统。

全家桶开源,机器人ChatGPT时刻

下一阶段,机器人将以各种形态进入现实世界,前提是,它们首先在Omniverse中学会如何行动。

现场,老黄又召唤来了机器人瓦力登台配合演出,这里他讲了一句意味深长的话:

未来的系统,都诞生在计算机里。


英伟达正把自身能力嵌入到,计算密度最高、最复杂的工业体系统,就像此前与Palantir、ServiceNow的集成一样。

如今,这一模式正被复制到了工业仿真与设计领域。

在具身智能领域,老黄直接扔下了一套针对物理AI(Physical AI)的「开源全家桶」——模型、框架及基础设施,应有尽有。

机器人的ChatGPT时刻已经到来!


目前,所有新模型均已上线Hugging Face,拿来即用:

NVIDIA Cosmos Transfer/Predict 2.5,这是完全可定制的世界模型,专门在虚拟世界里生成符合物理规律的数据,训练机器人的大脑。

NVIDIA Cosmos Reason 2,让机器像人一样「看懂」世界并进行逻辑推理。

NVIDIA Isaac GR00T N1.6,专为人形机器人打造,解锁全身控制,让机器人不再四肢僵硬。

为了解决机器人开发中「各自为战」的痛点,英伟达发布了两大神器:

Isaac Lab-Arena:这是GitHub上的开源框架,连接了主流基准测试,确保机器人在进厂打工前,已经在虚拟世界里经过了千锤百炼。

NVIDIA OSMO:无论是在工作站还是混合云,它都能统一调度数据生成、模型训练和测试,大幅缩短开发周期。

机器人技术已是Hugging Face上增长最快的领域。英伟达这次不仅是提供模型,更是深度集成:

LeRobot集成:Isaac和GR00T技术直接通过LeRobot框架即可调用。

硬件互通:Hugging Face的开源机器人Reachy 2和Reachy Mini现已完美适配英伟达的Jetson平台,语音、视觉、大模型能力瞬间拉满。

软件强还不够,硬件必须硬。如今,全新的Jetson T4000模组,直接将Blackwell架构带到了边缘端:

算力高达1200 FP4 TFLOPS,是上一代的4倍。

1000台起订单价仅1999美元。

70瓦功耗,简直是为能源受限的自主设备量身定做。


老黄震撼预言

未来所有应用,建在AI之上

每隔10-15年,计算产业就会重来一次。

演讲伊始,老黄还回顾了计算产业过去数十年的演进路径——

从大型机到CP,到互联网、云计算,再到移动计算,每一次平台级跃迁,都会催生一整套全新的应用生态,软件开发方式也随之重构。

而这一次,变化来得更加猛烈。

他提到,当前产业正同时经历两次平台级转变:一是从传统计算走向AI,另一个是整个软件、硬件栈的底层重塑。

AI正成为全新的「底座」,应用开始建立在AI之上。同时,软件开发与运行方式、应用生成方式发生了根本性变化。

这一切,共同推动了「加速计算+AI」对整个计算体系的重塑,五个层级正在同时被重新发明。


2022年ChatGPT爆发后,AI才真正走进大众视野。一年之后,推理模型首次登场,引入了「测试时Scaling」这一概念。

模型不仅在训练阶段学习,还在推理阶段实时计算和推演。预训练、RL、推理这些阶段,都需要机器庞大的计算资源,也同时推动模型能力持续提升。

2024年,另一项突破开始显现,直到2025年,智能体系统(Agentic AI)才迅速扩散开来。

老黄再次提及,在英伟达内部,像Cursor这样的Agentic工具已深刻改变了软件的开发方式。

智能体AI之后,下一个前沿便是物理AI(Physical AI),理解自然规律和物理法则,为AI打开了全新疆域。

除此之外,过去一年,另一个具有决定性意义的变化来自「开源模型」。

DeepSeek R1的出现,作为首批开源推理模型之一,给行业带起来巨大震动。

但不可否认的是,其仍比前沿模型落后六个月。每隔半年,就有新模型涌现,而且越来越智能。



英伟达,正引领着开源模型的生态,遍布多个领域。而且,在多个榜单上取得了亮眼的成绩。

最具代表性的包括多模态Nemotron 3、世界模型Cosmos、机器人模型GR00T、蛋白预测模型OpenFold 3......



老黄现场表示,以上一切成果,都为构建AI智能体服务,这是真正突破性的发展领域。

当前AI模型已变得极其强大,智能体的推理能力为各类应用开启了大门。


令老黄深感震惊的是,首次在Perplexity见证了其同时调用多个模型——AI在推理任何环节,直接调用最顶尖的模型。

这背后本质上是「多云协同」,同时还具备了混合云特性。

老黄明确地表示,这就是未来AI应用的基本形态。或者说,因为未来应用都构建在AI之上,这就是未来应用的基础框架。

一方面,AI可以被深度定制。另一方面,系统始终保持最前沿。「定制+前沿」能力在同一架构中同时存在。


在软件世界之外,更大挑战来自于现实世界。为此,物理AI需要三台计算机——

第一台计算机:用于训练模型

第二台计算机:用于推理,运行咋i汽车、机器人、工厂等边缘环境

第三台计算机:专门用于仿真、模拟

老黄提到,仿真是整个体系的核心,只有在可控的数字环境中,AI才能反复尝试、评估行为后果,并逐步建立对世界的理解。


彩蛋

演讲最后还有一个幕后花絮,DGX Station台式AI超算将在2026年春季上线。

届时,英伟达还将同步推出更多针对GB300系统的实战手册(Playbooks)。


如果说DGX Spark是开发者的入门首选,那么DGX Station就是一台放在你办公桌上的微型数据中心:

搭载GB300 Grace Blackwell Ultra超级芯片。

配备高达775GB的FP4精度一致性内存(Coherent Memory)。

拥有Petaflop级AI算力,支持在本地运行高达1万亿(1T)参数的超大规模模型。

得益于强大的硬件基础,DGX Station实测威力惊人:

LLM预训练速度高达250,000 Token/秒

支持对数百万数据点进行聚类和大型可视化。

从DeepSeek R1的开源震动,到Agentic AI的全面爆发,计算产业正在经历一场前所未有的重塑。

在这个只有玩家落泪的早上,一个由物理AI驱动的全新世界,正在Vera Rubin的轰鸣声中,加速向我们走来。

参考资料:HYZ

https://nvidianews.nvidia.com/news/rubin-platform-ai-supercomputer

https://www.nvidia.com/en-gb/data-center/vera-rubin-nvl72/

https://blogs.nvidia.com/blog/dgx-superpod-rubin/

https://www.nvidia.com/en-us/events/ces/

https://youtu.be/0NBILspM4c4

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!


免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。