当前位置：首页 » 资讯 » 新科技 » 正文

AI驶入“推理时代”：英伟达欲加冕“Token国王”，中国大模型已凭性价比抢跑

IP属地中国·北京 编辑：唐云泽每日经济新闻 时间：2026-03-17 21:44:58

“推理的拐点已然到来。”
当地时间3月16日，在美国圣何塞举行的GTC（GPU技术大会）上，英伟达CEO黄仁勋为全球AI竞赛划定了全新的战场。
在这场万众瞩目的演讲中，黄仁勋抛出了一个新的商业概念——“AI Token工厂”。
他指出，随着AI大模型从单纯的“聊天工具”进化为“自主执行任务的智能体（Agent）”，AI的核心战事已从一次性的模型训练，全面转向持续、海量的Token生成（即推理）。
在这个规模到2027年或将高达万亿美元的新市场里，谁能把Token的生产成本降到最低，谁就能加冕为“Token国王”。
图片黄仁勋演讲视频截图
为此，英伟达祭出了能将生成Token成本暴降90%的新一代Vera Rubin计算平台。
就在黄仁勋高呼“降本”的同时，中国AI厂商已在推理市场上悄然拿下了全球定价权。
数据显示，自2026年2月以来，伴随着OpenClaw等智能体应用引发的Token消耗量狂飙，中国AI大模型凭借极致的性价比——仅为国外竞品1/6至1/10的Token单价，在全球最大的API聚合平台OpenRouter上，周调用量已连续多次强势反超美国同行，并长期霸榜。
这绝非一场简单的市场份额易手，而是一场关于AI降本路径的底层逻辑大碰撞。
当AI全面驶入“推理时代”，这场争夺定价权的“Token战”已正式打响。
图片
黄仁勋定调新战场：AI竞争核心已从训练转向Token生产效率
在2026年的GTC大会上，黄仁勋用近两个小时的主题演讲，为AI行业的下一阶段竞争划定了赛道——推理（Inference）。
黄仁勋强调，随着AI从简单的聊天机器人演进到能自主完成任务的智能体（Agentic AI），AI行业的核心工作正从一次性的模型训练，转向持续不断地运行模型以生成结果，即推理。
每一次AI的问答、创作或分析背后，都是模型对Token的处理和生成。
Token是AI处理信息的最小数据单元，可以是一个单词的一部分，也可以是图像的像素块。黄仁勋指出，Token是新AI时代的基础构建单元，而AI应用的价值也越来越多地体现在持续、高效地生成Token上。
基于这一判断，黄仁勋重提他早在2024年就提出的概念：“AI Token工厂”。
图片黄仁勋演讲视频截图
他认为，数据中心的角色已经发生了根本性转变。
“在上次工业革命中，进入工厂的原材料是水，出来的产品是电。”黄仁勋在2024年的GTC大会上曾说，“如今，进入这些（服务器）房间的原材料是数据和电力，出来的则是Token。这些Token虽然无形，但非常有价值，将被分发到世界各地”。
这个概念的转变至关重要。过去，数据中心一直被视为企业的“成本中心和资本支出”，但黄仁勋试图让市场接受一种新的经济模型：算力直接与收入挂钩。“如果没有算力，就没有Token；没有Token，就没有收入”。在这种模型下，“AI Token工厂”的效率，将成为衡量云服务商和AI公司的核心经营指标。
黄仁勋给出了一个惊人的预测，到2027年，AI计算基础设施的市场规模可能会接近1万亿美元。一年前，英伟达给出的预期数字还只是5000亿美元。黄仁勋解释说，无论是初创公司还是大型企业，对算力的需求都在激增，“如果他们能获得更多算力，就能生成更多Token，他们的收入就会提升”。
在以提高Token生产效率为目标的战场上，谁能以最低成本生成Token，谁就掌握了主导权。黄仁勋在演讲中毫不讳言英伟达的雄心，他手举一条印有“InferenceX”（推理之王）的冠军腰带，并多次强调英伟达通过软硬件的“极致协同设计”（Extreme Co-design），实现了全球最低的Token成本，自封为“Token国王”。
英伟达发布新一代AI平台Vera Rubin，欲将Token成本降低90%
为了在自己定义的“推理时代”中巩固领先地位，英伟达在本次GTC上重点提及了自己的下一代AI计算平台——Vera Rubin。
黄仁勋宣称，Vera Rubin平台将带来一次“代际飞跃”，其每瓦特的推理性能是上一代Grace Blackwell的10倍，能够将生成Token的成本降低约90%。在AI应用能耗问题日益凸显的当下，这一能效比的巨大提升显得尤为关键。
此外，英伟达还首次详细披露了其整合Groq技术的成果。Groq是一家由谷歌TPU（张量处理单元）创始人创立的公司，英伟达在2025年12月斥资200亿美元收购了其大部分资产。Groq的核心技术是一种确定性数据流处理器（LPU），专为低延迟推理而设计。
英伟达创造了一种创新的混合架构。在这套系统中，推理过程中需要大量算力和内存的任务在Vera Rubin GPU上完成；而对速度要求极高的任务，即最终生成Token的步骤，则交由Groq的LPU处理。
黄仁勋表示，Vera Rubin与Groq LPU的组合可以将推理性能提升高达35倍。这种“GPU负责高吞吐，LPU负责低延迟”的混合模式，旨在应对不同AI任务对成本、延迟和吞吐量的复杂要求，帮助客户在不同价值层级的Token生成中找到最佳平衡点。黄仁勋表示：“如果你的工作主要是高吞吐，100%使用Vera Rubin；如果你有大量高价值的编程级别的Token生成需求，拿出25%的数据中心规模给Groq。”
图片黄仁勋演讲视频截图
英伟达的野心不止于芯片。从Vera Rubin GPU、Vera CPU，到BlueField 4存储系统、CPO Spectrum X光学交换机，再到名为Kyber的全新液冷机架系统，英伟达展示了一套从芯片到系统的全栈解决方案。黄仁勋在演讲中反复强调，加速计算不是一个芯片问题，而是一个系统问题，必须进行垂直整合。
为了让“AI工厂”的建设更加标准化，英伟达甚至推出了名为NVIDIA DSX的数字孪生平台。该平台基于其Omniverse技术，允许客户在虚拟世界中规划、设计和模拟整个吉瓦级AI工厂的运行，包括机械、热学、电气和网络系统，甚至可以与电网协同进行节能调度，以求在设计阶段就将效率最大化。
图片黄仁勋演讲视频截图
通过定义Token经济、发布降本硬件、推出全栈方案乃至制定建厂标准，英伟达正试图定义整个AI工厂的构建模式，将自己从一个芯片供应商，升级为AI时代的“工厂架构师、操作系统供应商和通行费征收者”。
凭借架构创新和电力优势实现低价Token，中国AI已领跑全球市场
就在黄仁勋描绘“将Token成本降低90%”的宏伟蓝图时，中国的AI大模型厂商早已凭借性价比优势，在全球市场领跑。
2026年以来，OpenClaw的出现让全球AI大模型的Token消耗量相比于“聊天机器人”时代呈指数级提升。
因此，开发者和用户对于大模型Token价格更加敏感。凭借仅为国外大模型1/6～1/10的Token价格，中国大模型成为全球智能体（AI Agent）用户的优先选择。
全球最大的AI大模型API聚合平台OpenRouter数据显示，今年2月9日~15日当周，中国AI大模型以4.12万亿的Token调用量，首次超过同期美国AI大模型的2.94万亿Token。到3月9日～15日当周，上榜的AI大模型中，中国AI大模型的周调用量上升至4.69万亿Token，再次连续两周超越美国。
而且，在调用量排名前列的AI大模型中，中国AI大模型持续占据多数。
此前，OpenClaw默认选择Claude4.5大模型，但有部分开发者认为其成本较高。而中国AI大模型运营实际成本远低于美国AI大模型。
根据Artificial Analysis数据，以Minimax M2.5为例，运行一轮Artificial Analysis测试成本仅需125美元，而以Claude Opus 4.6运行一轮测试需要4970美元，使用GPT5.2-Codex测试一轮也需要花费3244美元。
中国AI大模型成本低，首先是因为Token价格低。比如，Minimax M2.5输入和输出价格仅为Claude Opus的6%和5%，是GPT5.2 Codex（xhigh）的17%和9%；
其次，单次运行测试所消耗的Token量少。以Minimax M2.5为例，运行一次测试消耗的Token量为58M，仅为Claude Opus的36%和GPT5.2-Codex（xhigh）的29%。
虽然价格便宜，但国产AI大模型的能力并不低。
根据Artificial Analysis上对代码能力的评分，智谱GLM-5、Kimi K2.5和MiniMax 2.5在代码测试集上分别得分44、40、37分，与GPT-5.1(high）、Claude 4.5 Sonnet持平。
国产AI大模型的性价比优势得益于两个方面。首先是推理架构。
2025年后，DeepSeek通过一套协同创新实现高效：Multi-Head Latent Attention（多头潜在注意力，MLA)）大幅压缩KV缓存。Mixture-of-Experts（专家混合，MoE）架构、FP8混合精度训练、Multi Token Prediction（多Token预测，MTP），以及从DeepSeek-R1推理大模型蒸馏的知识。这套架构使其能在受限GPU上实现接近最先进的水平。
Kimi K2.5、智谱GLM5等大模型延续了DeepSeek思路，降低了推理成本。
电力成本优势是国产大模型高性价比的另一个原因。
申万宏源计算机分析师测算，使用中国数据中心电力，理论上一张英伟达B200人工智能芯片每年可以节省900美元。2026年预计H200/B200及同级别芯片出货量超1500万颗，理论上全球每年电价可节省空间为百亿美元。
单张GPU芯片推理作业中生成的Tokens及电价消耗量测算
国信证券分析师在研报中指出，相较于训练端比拼最先进芯片、超大规模集群和长周期前置投入，推理更看重用户生态、电力、网络和调度效率等方面，中国与美国的芯片差距被缩小。
免责声明：本文内容与数据仅供参考，不构成投资建议，使用前请核实。据此操作，风险自担。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

大连理工大学突破多模态识别技术："看懂"不同光谱下的同一物体

上海交通大学推出"口袋机器人"：用手机就能训练机器人

岚图汽车卢放：泰山虽搭载L3级整车架构，但驾驶时不能手眼脱离

英伟达不想只卖芯片了

阿里云计算让AI模型减肥成功：多模态语言模型"精准瘦身"新方法

【IT之家评测室】无感折痕+ AI“外挂”，OPPO Find N6体验评测

全站最新

大连理工大学突破多模态识别技术："看懂"不同光谱下的同一物体

上海交通大学推出"口袋机器人"：用手机就能训练机器人

岚图汽车卢放：泰山虽搭载L3级整车架构，但驾驶时不能手眼脱离

英伟达不想只卖芯片了

热门推荐

天眼查数据：问题增高机构安立身已注册相关商标

天眼查数据：增高套路涉事英瑞可公司注册资本仅50万

天眼查数据：增高机构的营销套路，超61.4万家医疗保健相关企业出现过经营异常

天眼查数据：增高营销公司德脊瑞曾侵权易烊千玺

天眼查数据：灏麟生物曾中标社区卫生服务中心采购项目

天眼查数据：私域营销里的假专家，超38.1万家保健品相关企业出现过经营异常

天眼查数据：揭露私域营销“坑老骗老”黑产，超61.4万家医疗保健相关企业出现过经营异常

天眼查数据：揭露私域营销“坑老骗老”黑产，超37.1万家的广告相关企业曾出现经营异常

天眼查数据：牛丁电动车曾因质量问题召回部分车辆

天眼查数据：骗人短剧短剧私域“坑老”，相关企业现存800余条被执行人信息

天眼查数据：私域营销涉事海南制药厂涉多起法律纠纷

天眼查数据：315曝光狂飙的电动自行车，超3.2万家的电动自行车相关企业曾出现经营异常

天眼查数据：起底315曝光私域营销公司盛维文化

天眼查数据：问题私域营销傲盈文化24年曾增资4900%

天眼查数据：私域营销涉事耍吧文化连续多年0人参保