
![]()
“黄仁勋200亿美元买的是Jonathan Ross这个人。”
作者丨胡清文
编辑丨徐晓飞
“黄仁勋这200亿美元,买的其实就是Jonathan Ross这个人,押注在此英伟达未来可能会赚回三倍的钱,所以200 亿美元实在不算贵。”某投资人近日向雷峰网透露。
2025年12月24日,英伟达以其史上最大规模交易额200亿美金,将推理芯片独角兽Groq的核心技术与团队收入麾下。Groq创始人、谷歌TPU初代核心开发者Jonathan Ross带队加盟英伟达,其独创的LPU芯片技术将融入英伟达AI Factory架构。
当下AI行业正从“规模竞赛期”转向“效率价值兑换期”,推理侧需求大于训练侧需求已成为普遍共识。
面对推理市场的爆发式增长,Groq的专属LPU芯片以5-10倍于GPU 的速度优势,以及1/10的成本优势,成为异军突起的核心玩家,而黄仁勋最终还是选择了将这条搅动市场的鲶鱼收入囊中。
这究竟是招安潜在对手的缓兵之计,还是垄断推理市场的霸权布局?
01
重金收编的核心是什么?
2026年CES大会期间,英伟达管理层在面向投资者的会议上强调,此次收购Groq不会对核心业务产生冲击,反而将为公司开辟全新的增长空间。
而这桩被包装成“非独家技术授权”的交易,本质是硅谷近年流行的“收购式招聘”的升级版:用授权的名义实现“人才+技术”的双收。
瑞银分析师团队在研报中直言:“这是一场没有收购之名的完全收购,英伟达用最小的监管风险,获得了最核心的战略资产。”
根据披露信息,英伟达所支付的200亿美元中,130亿已即时到账,剩余款项中包含核心员工的股权激励,其中Groq CEO Jonathan Ross个人获得数亿美元英伟达股权。团队核心成员则几乎全员转入英伟达,芯片设计、编译器开发等核心资产也尽数归入英伟达体系。
“黄仁勋这200亿美元买的其实就是Jonathan Ross这个人,因为Jonathan Ross是个非一般意义的天才。如果拿黄仁勋类比杰夫里辛顿(深度学习教父)的话,那Jonathan Ross就要类比伊利亚(OpenAI联合创始人兼首席科学家)。”苔藓花园播客主理人、资深私募投资人王韦华告诉雷峰网。
作为谷歌初代TPU的核心设计者,Jonathan Ross早在2016年Groq成立时就已预判推理将成为规模化难题,并率先提出“推理市场规模终将远超训练”。他提前洞悉到推理的核心需求是“低延迟、高能效、低成本”,而非计算密度。因此他摒弃了GPU架构改良思路,从零打造专为推理设计的LPU架构。
LPU架构完全围绕“消除数据搬运延迟”展开,采用无外置内存、全片上SRAM作为主存的设计,片上带宽达80TB/s,是Blackwell B300 的HBM带宽8TB/s的10倍。
成本方面,Jonathan Ross曾在福布斯独家专访中公开声明,“Groq LPU在LLM推理速度快10倍同时,成本是Nvidia GPU的1/10,功耗是Nvidia GPU的1/10。”
这种集性能与成本优势于一身的提升,精准击中了英伟达在推理赛道的核心短板,也成为黄仁勋不惜斥资 200亿果断出手的关键所在。
另一方面,回溯英伟达过往的并购布局便不难发现,这场交易也并非偶然。
2000年,英伟达以7000万美元+100万股普通股收购了3dfx核心图形资产,奠定GPU领域统治基础;2013年,收购了HPC编译器龙头PGI,强化了CUDA生态在高性能计算领域的核心支撑;2019年,以约69亿美元收购了Mellanox,补全数据中心网络短板。
王韦华认为,“LPU现在已经不是0亿美金市场了,但黄仁勋再次早于别人发现了LPU的重要性。英伟达现在收购Groq,甚至比2019年收购Mellanox的重要性要更大,这一步直接让英伟达在推理端领先两三年。虽然在英伟达整个数据中心的建设里推理占比不大,但只要它在技术上保持领先就会产生巨大的杠杆效应。”
尽管Groq当前的市占率远未对英伟达构成直接威胁,但它掌握的可重构数据流架构,代表了AI推理的未来方向。英伟达此次用200亿美元“买断”这条技术路线,正是“技术补位+生态垄断”并购战略的延续。
而这种不计短期成本、锁定长期技术优势的大手笔操作,底气完全来自其充沛到近乎 “过剩” 的现金流。据英伟达最新财报,仅2026财年Q3,英伟达的自由现金流便达到了220.89亿美元。
02
为什么是Groq?
当下,全球仅有两个团队掌握TPU架构技术:谷歌与Groq。
在此之前,谷歌凭借TPU训练出优质模型引发市场关注,导致英伟达股价受挫,此次收编补齐了其在TPU架构路线上的短板,在巩固行业地位的同时为其估值提供了重要支撑。
王韦华表示,“英伟达这次押注LPU不单是为了对抗谷歌的TPU,TPU专注于矩阵运算,更多还是强调在训练方面的优势。LPU 其实跟 TPU 相比的话,更专注于推理这一块。以后在推理这块谁能省最多的电?谁能在速度上面最有优势?目前看最有可能的方向就是LPU了。”
作为谷歌TPU的核心缔造者,Jonathan Ross深知GPU处理线性代数运算时的架构冗余,离开谷歌后他以第一性原理为核心,选择SRAM作为核心存储、通过编译器规划数据路径,打造低延迟LPU产品,其TPU开发经验直接决定了Groq“顺序延迟优先”的技术路线。从谷歌TPU的灵魂人物,到出走自立门户成立Groq,过程中的势力角逐,欢迎添加作者微信IHAVEAPLANB-交流。
业内人士告诉雷峰网,TPU架构的计算效率远超GPU的原因在于,GPU需经历“计算-传数据至存储-读写-再计算”的循环,而TPU采用片上存储直接计算,省去了数据往返存储的环节,效率极高。
当token的吞吐量效率落地到用户体验层面,Jonathan Ross表示,响应时间每缩短 100 毫秒,桌面端用户参与度就能提升8%,移动端更是高达34%。业界早已形成共识:当用户体验的响应时间控制在250到300毫秒以内时,商业收益才能最大化。
根据Groq 官方信息,实测数据显示Groq LPU在运行Llama 3.3 70B模型时,token生成速度达284tokens/s,首token响应时间仅为0.22s,运行混合专家(MoE)模型时更是突破460 tokens/s。
![]()
![]()
Groq官网
这种极致性能让Groq斩获沙特王国15亿美元业务承诺资金,也让英伟达意识到,要统治推理市场需补齐这一短板。
英伟达此前推出的H200、B300等推理优化芯片,本质仍是基于GPU架构的改良,未能突破冯·诺依曼架构的先天局限,而谷歌TPU、AMD MI300等竞争对手,均在专用推理架构上持续发力。
更严峻的是,meta、谷歌等大客户开始寻求算力供应多元化,Anthropic甚至宣布接入100万个谷歌TPU构建计算集群。在此背景下,收购Groq成为英伟达快速抢占推理高地、留住核心客户的最优解。
“英伟达真正擅长的是训练,在这一领域它是最出色的。英伟达既不提供高速的token处理服务,也没有低成本的token解决方案,这便是Groq要解决的问题。”
在被英伟达纳入麾下之前,Jonathan Ross曾在播客中公开声明,英伟达与Groq并非竞争对手,二者的产品完全是不同维度的存在。然而事实果真如此吗?
某机构分析师张简告诉雷峰网:“英伟达要忌惮的,是Groq代表的“去GPU化”技术路线可能引发的产业变革。英伟达的霸权建立在“GPU+CUDA生态+HBM/CoWoS稀缺产能”的三重护城河上,而Groq的技术路线恰恰绕开了这三大壁垒:可重构架构无需依赖CUDA生态,采用GlobalFoundries和三星代工,不占用台积电稀缺的CoWoS产能。”
“一旦这条路线跑通,意味着AI芯片的生产门槛将大幅降低,其他设计公司无需依赖稀缺供应链就能大规模生产推理芯片。英伟达以200亿美元收编Groq,意味着将这条潜在的颠覆路线握在自己手中,确保算力革命的主导权不旁落。”
03
推理市场变天?
“为了成为一名心血管外科医生,你不可能花费一生95%的时间接受培训,真正手术的时间只占5%。实际情况恰恰相反:你经过短暂培训,随后便会用余生持续实践这项技能。”对于推理市场未来的演进趋势,Jonathan Ross曾打过这么一个比方。
2025年初Deepseek横空出世时,Jonathan Ross将其称为AI行业的“斯普特尼克时刻”;当下,推理市场也许将再次进入“斯普特尼克时刻”。
据悉,在收购Groq后英伟达会将LPU作为专用的DAC硬件单元嵌入到CUDA生态系统中,以此保持CUDA编程的通用性。短期内,英伟达会通过NVFusion快速集成LPU;长期来看,则会在底层架构和编译器层面实现协同设计,从而满足性能场景下的高性能需求。
由于推理场景和训练场景存在显著差异,无法通过单一架构解决所有问题,不同推理场景对大模型的工作负载要求各异,所以推理芯片架构将呈现多样化,需要针对细分场景进行优化。
业内人士爆料,英伟达下一代Feynman GPU或将于2028年集成Groq的LPU单元,采用类似AMD X3D方案的独立芯片堆叠设计,即利用台积电的SoIC混合键技术将3D V-Cache芯片集成到主计算芯片上。
![]()
可能搭载LPU单元的Feynman芯片,Wccftech
考虑到SRAM的扩展性有限,将其作为单元芯片集成到Feynman GPU中可能并非明智之举,因为在先进制程上构建SRAM将导致高端硅片的浪费,并大幅增加每片晶圆面积的使用成本,因此英伟达很可能会将LPU单元堆叠到Feynman芯片上。
“这样一来,像A16(1.6纳米)这样的芯片将用于主Feynman芯片,而独立的LPU芯片将包含大型SRAM存储体。此外,为了将这些芯片连在一起,台积电的混合键合技术至关重要,因为它能提供更宽的接口,并且与封装外存储器相比,每比特能耗更低。最重要的是,由于A16具有背面供电功能,正面将可用于垂直SRAM连接,从而确保低延迟的解码响应。”
可要做到上述也绝非易事,目前的主要问题仍在于CUDA在LPU风格执行中的行为方式,因为它需要显式的内存布局,而CUDA内核设计初衷是为了实现硬件抽象。对于英伟达团队而言,在AI架构中集成SRAM难度极高,这需要“工程奇迹”来确保LPU-GPU环境得到充分优化。
然而,如果英伟达想要主导推理市场,这或许是其愿意付出的代价。
本文作者长期聚焦海外To B半导体科技巨头,更多公司动态、行业逻辑、价值投资信息,欢迎添加作者微信 IHAVAPLANB- 交流探讨。
注:文中张简为化名。






京公网安备 11011402013531号