当前位置: 首页 » 资讯 » 新科技 » 正文

AI驶入“推理时代”:英伟达欲加冕“Token国王”,中国大模型已凭性价比抢跑

IP属地 中国·北京 编辑:唐云泽 每日经济新闻 时间:2026-03-17 21:44:58

“推理的拐点已然到来。”

当地时间3月16日,在美国圣何塞举行的GTC(GPU技术大会)上,英伟达CEO黄仁勋为全球AI竞赛划定了全新的战场。

在这场万众瞩目的演讲中,黄仁勋抛出了一个新的商业概念——“AI Token工厂”。

他指出,随着AI大模型从单纯的“聊天工具”进化为“自主执行任务的智能体(Agent)”,AI的核心战事已从一次性的模型训练,全面转向持续、海量的Token生成(即推理)。

在这个规模到2027年或将高达万亿美元的新市场里,谁能把Token的生产成本降到最低,谁就能加冕为“Token国王”。

图片黄仁勋演讲视频截图

为此,英伟达祭出了能将生成Token成本暴降90%的新一代Vera Rubin计算平台。

就在黄仁勋高呼“降本”的同时,中国AI厂商已在推理市场上悄然拿下了全球定价权。

数据显示,自2026年2月以来,伴随着OpenClaw等智能体应用引发的Token消耗量狂飙,中国AI大模型凭借极致的性价比——仅为国外竞品1/6至1/10的Token单价,在全球最大的API聚合平台OpenRouter上,周调用量已连续多次强势反超美国同行,并长期霸榜。

这绝非一场简单的市场份额易手,而是一场关于AI降本路径的底层逻辑大碰撞。

当AI全面驶入“推理时代”,这场争夺定价权的“Token战”已正式打响。

图片

黄仁勋定调新战场:AI竞争核心已从训练转向Token生产效率

在2026年的GTC大会上,黄仁勋用近两个小时的主题演讲,为AI行业的下一阶段竞争划定了赛道——推理(Inference)。

黄仁勋强调,随着AI从简单的聊天机器人演进到能自主完成任务的智能体(Agentic AI),AI行业的核心工作正从一次性的模型训练,转向持续不断地运行模型以生成结果,即推理。

每一次AI的问答、创作或分析背后,都是模型对Token的处理和生成。

Token是AI处理信息的最小数据单元,可以是一个单词的一部分,也可以是图像的像素块。黄仁勋指出,Token是新AI时代的基础构建单元,而AI应用的价值也越来越多地体现在持续、高效地生成Token上。

基于这一判断,黄仁勋重提他早在2024年就提出的概念:“AI Token工厂”。

图片黄仁勋演讲视频截图

他认为,数据中心的角色已经发生了根本性转变。

“在上次工业革命中,进入工厂的原材料是水,出来的产品是电。”黄仁勋在2024年的GTC大会上曾说,“如今,进入这些(服务器)房间的原材料是数据和电力,出来的则是Token。这些Token虽然无形,但非常有价值,将被分发到世界各地”。

这个概念的转变至关重要。过去,数据中心一直被视为企业的“成本中心和资本支出”,但黄仁勋试图让市场接受一种新的经济模型:算力直接与收入挂钩。“如果没有算力,就没有Token;没有Token,就没有收入”。在这种模型下,“AI Token工厂”的效率,将成为衡量云服务商和AI公司的核心经营指标。

黄仁勋给出了一个惊人的预测,到2027年,AI计算基础设施的市场规模可能会接近1万亿美元。一年前,英伟达给出的预期数字还只是5000亿美元。黄仁勋解释说,无论是初创公司还是大型企业,对算力的需求都在激增,“如果他们能获得更多算力,就能生成更多Token,他们的收入就会提升”。

在以提高Token生产效率为目标的战场上,谁能以最低成本生成Token,谁就掌握了主导权。黄仁勋在演讲中毫不讳言英伟达的雄心,他手举一条印有“InferenceX”(推理之王)的冠军腰带,并多次强调英伟达通过软硬件的“极致协同设计”(Extreme Co-design),实现了全球最低的Token成本,自封为“Token国王”。

英伟达发布新一代AI平台Vera Rubin,欲将Token成本降低90%

为了在自己定义的“推理时代”中巩固领先地位,英伟达在本次GTC上重点提及了自己的下一代AI计算平台——Vera Rubin。

黄仁勋宣称,Vera Rubin平台将带来一次“代际飞跃”,其每瓦特的推理性能是上一代Grace Blackwell的10倍,能够将生成Token的成本降低约90%。在AI应用能耗问题日益凸显的当下,这一能效比的巨大提升显得尤为关键。

此外,英伟达还首次详细披露了其整合Groq技术的成果。Groq是一家由谷歌TPU(张量处理单元)创始人创立的公司,英伟达在2025年12月斥资200亿美元收购了其大部分资产。Groq的核心技术是一种确定性数据流处理器(LPU),专为低延迟推理而设计。

英伟达创造了一种创新的混合架构。在这套系统中,推理过程中需要大量算力和内存的任务在Vera Rubin GPU上完成;而对速度要求极高的任务,即最终生成Token的步骤,则交由Groq的LPU处理。

黄仁勋表示,Vera Rubin与Groq LPU的组合可以将推理性能提升高达35倍。这种“GPU负责高吞吐,LPU负责低延迟”的混合模式,旨在应对不同AI任务对成本、延迟和吞吐量的复杂要求,帮助客户在不同价值层级的Token生成中找到最佳平衡点。黄仁勋表示:“如果你的工作主要是高吞吐,100%使用Vera Rubin;如果你有大量高价值的编程级别的Token生成需求,拿出25%的数据中心规模给Groq。”

图片黄仁勋演讲视频截图

英伟达的野心不止于芯片。从Vera Rubin GPU、Vera CPU,到BlueField 4存储系统、CPO Spectrum X光学交换机,再到名为Kyber的全新液冷机架系统,英伟达展示了一套从芯片到系统的全栈解决方案。黄仁勋在演讲中反复强调,加速计算不是一个芯片问题,而是一个系统问题,必须进行垂直整合。

为了让“AI工厂”的建设更加标准化,英伟达甚至推出了名为NVIDIA DSX的数字孪生平台。该平台基于其Omniverse技术,允许客户在虚拟世界中规划、设计和模拟整个吉瓦级AI工厂的运行,包括机械、热学、电气和网络系统,甚至可以与电网协同进行节能调度,以求在设计阶段就将效率最大化。

图片黄仁勋演讲视频截图

通过定义Token经济、发布降本硬件、推出全栈方案乃至制定建厂标准,英伟达正试图定义整个AI工厂的构建模式,将自己从一个芯片供应商,升级为AI时代的“工厂架构师、操作系统供应商和通行费征收者”。

凭借架构创新和电力优势实现低价Token,中国AI已领跑全球市场

就在黄仁勋描绘“将Token成本降低90%”的宏伟蓝图时,中国的AI大模型厂商早已凭借性价比优势,在全球市场领跑。

2026年以来,OpenClaw的出现让全球AI大模型的Token消耗量相比于“聊天机器人”时代呈指数级提升。

因此,开发者和用户对于大模型Token价格更加敏感。借仅为国外大模型1/6~1/10的Token价格,中国大模型成为全球智能体(AI Agent)用户的优先选择。

全球最大的AI大模型API聚合平台OpenRouter数据显示,今年2月9日~15日当周,中国AI大模型以4.12万亿的Token调用量,首次超过同期美国AI大模型的2.94万亿Token。到3月9日~15日当周,上榜的AI大模型中,中国AI大模型的周调用量上升至4.69万亿Token,再次连续两周超越美国。

而且,在调用量排名前列的AI大模型中,中国AI大模型持续占据多数。

此前,OpenClaw默认选择Claude4.5大模型,但有部分开发者认为其成本较高。而中国AI大模型运营实际成本远低于美国AI大模型。

根据Artificial Analysis数据,以Minimax M2.5为例,运行一轮Artificial Analysis测试成本仅需125美元,而以Claude Opus 4.6运行一轮测试需要4970美元,使用GPT5.2-Codex测试一轮也需要花费3244美元。

中国AI大模型成本低,首先是因为Token价格低。比如,Minimax M2.5输入和输出价格仅为Claude Opus的6%和5%,是GPT5.2 Codex(xhigh)的17%和9%;

其次,单次运行测试所消耗的Token量少。以Minimax M2.5为例,运行一次测试消耗的Token量为58M,仅为Claude Opus的36%和GPT5.2-Codex(xhigh)的29%。

虽然价格便宜,但国产AI大模型的能力并不低。

根据Artificial Analysis上对代码能力的评分,智谱GLM-5、Kimi K2.5和MiniMax 2.5在代码测试集上分别得分44、40、37分,与GPT-5.1(high)、Claude 4.5 Sonnet持平。

国产AI大模型的性价比优势得益于两个方面。首先是推理架构。

2025年后,DeepSeek通过一套协同创新实现高效:Multi-Head Latent Attention(多头潜在注意力,MLA))大幅压缩KV缓存。Mixture-of-Experts(专家混合,MoE)架构、FP8混合精度训练、Multi Token Prediction(多Token预测,MTP),以及从DeepSeek-R1推理大模型蒸馏的知识。这套架构使其能在受限GPU上实现接近最先进的水平。

Kimi K2.5、智谱GLM5等大模型延续了DeepSeek思路,降低了推理成本。

电力成本优势是国产大模型高性价比的另一个原因。

申万宏源计算机分析师测算,使用中国数据中心电力,理论上一张英伟达B200人工智能芯片每年可以节省900美元。2026年预计H200/B200及同级别芯片出货量超1500万颗,理论上全球每年电价可节省空间为百亿美元。

单张GPU芯片推理作业中生成的Tokens及电价消耗量测算

国信证券分析师在研报中指出,相较于训练端比拼最先进芯片、超大规模集群和长周期前置投入,推理更看重用户生态、电力、网络和调度效率等方面,中国与美国的芯片差距被缩小。

免责声明:本文内容与数据仅供参考,不构成投资建议,使用前请核实。据此操作,风险自担。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新