当前位置: 首页 » 资讯 » 新科技 » 正文

推理变得比训练更重要:阿里 AI 调整背后的技术趋势

IP属地 中国·北京 编辑:钟景轩 君泽 时间:2026-04-09 16:37:27

推理经济的最终受益者,不是拥有最强芯片的人,而是拥有最多 Token 消耗场景的人,这对中国是个好消息。

Token 经济卖的每一个 Token,都是一次推理调用。不是训练,不是微调——是推理。

4 月 8 日,阿里成立集团技术委员会,三个 CTO 级别的角色分管模型、基础设施和推理平台,推理平台的负责人吴泽明同时担任召集人——日常调度权在他手上。三周前,阿里刚刚组建了 Alibaba Token Hub 事业群,要求所有关联业务围绕 Token 进行商业化。两件事放在一起看,指向同一个判断:在 Token 经济的链条上,推理是最紧迫的瓶颈。

这个判断的经济学很简单。训练是资本开支——花几亿美元跑几个月,产出一组权重参数,完事。推理是运营成本——每一个用户的每一次提问、每一个 Agent 的每一步执行,都要消耗推理算力。训练像修路,推理像收费站。路修一次,收费站永远开着。

阿里不是唯一得出这个结论的人。黄仁勋在 GTC 2026 上提出"Token 工厂经济学",称 Token 将成为新的大宗商品,数据中心是生产 Token 的工厂,每瓦吞吐量决定商业竞争力。他甚至说,未来工程师的薪酬将包含 Token 配额。

一家中国互联网公司用组织架构来回应"推理优先",NVIDIA 用产品路线图来回应"推理优先"。两个完全不同的物种,得出了同一个结论。这已经超出了技术迭代的范畴——AI 产业链的利润分配方式正在被重写。

推理成本在暴跌。a16z 的研究给这个趋势取了个名字叫 LLMflation:同等性能的模型,推理成本每年下降约 10 倍。GPT-3 水平的推理,2021 年每百万 Token 要 60 美元,到 2024 年降到了 0.06 美元——三年降了 1000 倍。Epoch AI 的数据更细致:不同任务的推理价格下降速度从每年 9 倍到 900 倍不等,取决于任务难度和模型更新节奏。

NVIDIA 的产品路线图直接映射了这个趋势。Blackwell 平台把推理成本比上一代 Hopper 降了约 10 倍。2026 年下半年量产的 Vera Rubin 平台承诺再降 10 倍——核心卖点不再是峰值算力,而是每 Token 成本。当全球最大的 AI 芯片公司把定价叙事从"算力密度"转向"Token 成本",竞争维度已经换了坐标系。

但这里有一个反直觉的悖论:单位 Token 价格暴跌,企业 AI 总支出反而在飙升。原因是 Agent。传统 chatbot 一轮对话消耗几百个 Token,一个 Agent 工作流可能要消耗几万甚至几十万个 Token——它需要多步推理、工具调用、上下文维护、错误重试。OpenClaw 引爆的 Agent 浪潮让 Token 消耗量以数量级上升。OpenRouter 平台的数据显示,2026 年初 Agent 类应用的周度 Token 调用量出现了翻倍级增长,贡献了平台绝大部分增量。

Token 价格降了三个数量级,Token 消耗量升了三个数量级,两条曲线对冲之后,企业的 AI 总账单反而在变厚。推理已经从成本项变成了核心基础设施开支——就像电力之于工厂,你不会因为电价下降就减少用电量,你会用更多电来跑更多机器。

推理产能因此成了整个行业的命门。关键问题不再是谁的模型最聪明,而是谁能以最低成本、最高效率、最稳定地供应推理算力。AWS 推 Inferentia 和 Trainium,Google 把 TPU v6e 做到让 Midjourney 的月支出从 210 万美元降到 70 万美元,所有云厂商都在自研推理芯片——因为推理是持续的运营成本,谁能压低这个成本,谁就在 Token 经济里占据优势位。

这个趋势在中国有完全不同的含义。

美国对中国 AI 芯片的出口管制,打在了训练上,没有完全打在推理上。

这不是偶然的。训练大模型需要最先进制程的芯片、最高的算力密度、最大的显存带宽,需要成千上万张卡通过高速互联组成集群一起跑。制裁的每一条限制——算力上限、互联带宽限制、先进制程封锁——都精准卡住了训练场景的关键瓶颈。

推理不一样。推理对峰值算力的要求远低于训练,对成本效率和能效比的要求更高。一张训练卡要跑几个月,一张推理卡可能同时服务几千个用户的请求。推理场景更看重吞吐量、延迟、每瓦性能——这些维度上的差距,比峰值算力的差距要小得多。

推理,是国产芯片替代最可能跑通的赛道。

本文仅供会员阅读

后续内容包括:

国产芯片的非对称竞争策略

推理经济重构 AI 产业利润分配

中国的优势在哪里

欢迎来我的知识星球

周二到周四,我将每天提供一份互联网/科技/消费等行业的观察,可能是独家消息,可能是趋势分析,也可能是不方便在其他渠道公开的内容。

星球初建,前 20 名成员将享受系统可能设定的最低价 50/年,之后随着内容增多,价格也会提高。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新