当前位置: 首页 » 资讯 » 新科技 » 正文

黄仁勋GTC专访:低延迟推理将成为AI经济下一个爆发引擎、电力芯片供需紧平衡将长期持续

IP属地 中国·北京 编辑:陈阳 华尔街见闻 时间:2026-03-17 22:14:26

AI正在从“生成信息”走向“执行任务”,以编码代理为代表的低延迟高吞吐推理场景,正在开启AI基础设施商业化的下一个重要阶段。在供给侧,电力,芯片与数据中心建设几乎都缺乏冗余,紧平衡或将成为更长期的行业底色。

在GTC 2026主题演讲结束后,英伟达CEO黄仁勋接受了Stratechery创始人Ben Thompson的专访,就AI推理经济、CPU战略、收购Groq的逻辑以及供应链紧张等核心议题发表了系统性看法。

黄仁勋在专访中指出,AI在过去一年跨越了一个关键门槛——推理能力的提升使模型首次开始产生真实的经济价值,而编程代理的爆发则是这一转变最清晰的体现。英伟达正式将超高速、低延迟推理纳入自身产品版图。

在供应层面,黄仁勋直言“几乎所有环节都很紧”,无论是电力还是芯片供应都难以轻易翻倍。英伟达虽称其供应链已为“今年和明年”做了规划,但他更希望“土地,电力和机房”能更快落地,这将直接影响算力扩张的节奏与资本开支兑现路径。

推理经济:低延迟成为下一个付费引擎

黄仁勋将过去一年AI发展的核心突破归结为推理能力的成熟。他表示,生成式AI早期因幻觉问题难以商业化,而推理能力的引入使模型得以通过反思、检索与搜索实现落地,进而从提供信息跃升为真正完成任务。

搜索是一项没有人付费的服务,原因在于获取信息的门槛不足以让人掏钱。黄仁勋说,我们现在已经跨越了那个门槛——AI不仅能与人交谈,还能为人做事。

编程是他列举的最典型案例。他指出,代码生成并非普通语言模态,需要模型对代码块进行整体反思、验证执行结果,这一能力的成熟使工程师得以将精力从逐行写代码转向架构与规格设计。

他透露,英伟达内部软件工程师已100%使用编程代理,很多人已经有一段时间没有亲手写过一行代码了,但他们的生产力极高。

正是基于这一判断,英伟达决定将低延迟推理能力纳入产品线。黄仁勋解释,现有GPU系统在最大化吞吐量与最大化智能token质量之间存在内在张力,而对于高价值编程代理用户而言,他们愿意为token生成速度提升10倍支付溢价。

如果Anthropic推出一个让编程速度提升10倍的Claude Code服务层,我会付费,毫无疑问。我是在为自己构建这个产品。

收购Groq:解构推理流水线的战略布局

英伟达收购Groq的决定,在黄仁勋看来并非突发之举,而是其在推理基础设施领域多年布局的自然延伸。

他表示,英伟达在一年前发布Dynamo推理调度框架时,就已着手思考如何在异构基础设施上更细粒度地拆解推理流程。与Groq的合作早于收购公告约六个月启动。此次交易的核心是获取Groq团队与技术授权,而非其云服务业务。

在技术层面,英伟达将把推理流水线拆解延伸至解码阶段内部,由Vera Rubin GPU处理高FLOP的注意力计算,由Groq的LPU架构承担需要极高token速率与极低延迟的部分。计划于今年内推出相关产品。

他说道:

但如果你的业务类似Anthropic或OpenAI,Codex正在产生真实的经济价值,而你希望生成更多token,那加入这个加速器就能显著提升收入。

他同时承认,这一方案并非适合所有客户。对于以免费用户为主、付费转化率尚低的平台而言,引入Groq会增加成本与复杂度,并不划算。

黄仁勋将Groq与此前收购Mellanox相提并论——两者都代表了英伟达将外部专用架构纳入自身计算栈、实现系统级协同优化的一贯逻辑。英伟达是一家加速计算公司,不是GPU公司,我们并不执着于计算发生在哪里,我们只想加速应用。

CPU战略:为AI代理时代重新定义服务器架构

在外界长期将英伟达定位为GPU公司的背景下,黄仁勋在本次专访中系统阐述了英伟达进军CPU市场的逻辑,并对自研Vera CPU的设计哲学作出说明。

他指出,过去十年CPU的设计取向是为超大规模云计算优化——以最大化可租用核心数量为目标,单线程性能并非优先项。然而在AI代理场景中,GPU在等待工具调用返回结果时,CPU的单线程性能直接决定系统整体效率。你永远不能让GPU时间空转。他说。

Vera CPU的核心差异化在于内存带宽与I/O带宽:其每CPU核心的带宽是目前任何CPU的三倍,专为不因I/O瓶颈而拖累GPU而设计。他还介绍了与英特尔在NVlink上的合作,以满足企业计算市场对x86生态的延续性需求。

黄仁勋将AI代理的工具使用分为两类:一类是结构化工具,包括CLI、API和数据库查询;另一类是非结构化工具,包括需要模型通过多模态感知操作网页界面的PC端应用。英伟达在两条路径上均有布局。

供应紧平衡:电力与芯片产能双双告急

针对市场持续关注的AI算力供给问题,黄仁勋给出了迄今最直接的判断:电力与芯片产能均处于紧平衡状态,短期内无任何一项存在翻倍空间。

我不认为我们有两倍于需求的电力,也不认为我们有两倍于需求的芯片供应,任何方面都没有两倍的冗余。他说,但就我目前看到的前景,我们的供应链能够支撑。

他表示,英伟达在供应链端拥有约两百家长期合作伙伴,并提前进行了上下游规划,对今明两年的大规模增长持乐观态度。

但他坦言,目前最大的瓶颈或许并不在芯片本身,而在于数据中心的土地、电力与建筑的落地速度。我最希望的事情,可能就是这些基础设施能更快竣工。

当被问及英伟达是否是算力稀缺的最大受益者时,黄仁勋承认公司规模最大且供应链准备最为充分,但将此归因于长期规划,而非市场格局的偶然红利。

标签: 黄仁勋 代理 电力 核心 最大化 能力 芯片 公司 模型 引擎 模态 经济 架构 供应链 价值 层面 系统 编程 工具 基础设施 布局 代码 规划 门槛 战略 流水线 非市场 格局 市场 供需 算力

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新