![]()
经济观察报记者 郑晨烨
素有AI行业年度风向标之称的英伟达GTC大会,今年3月16日至19日在美国加利福尼亚州圣何塞举行。
当地时间3月16日上午11点,也就是北京时间3月17日凌晨2点,英伟达CEO黄仁勋在圣何塞SAP中心发表了超过两小时的主题演讲。
黄仁勋在演讲中预测,到2027年全球AI基础设施相关需求将达到1万亿美元。他还说,实际需求可能会比1万亿美元高得多,英伟达的产品甚至会供不应求。
这个数字发布后,英伟达美股股价瞬时跳涨超过4%。但几个小时后A股开盘,算力产业链股票集体下跌,天孚通信(300394.SZ)收盘跌幅超10%,长光华芯(688048.SH)收盘跌幅亦达9.72%,多数龙头股回吐了近5日涨幅。
一边是万亿美元预期,一边是产业链股票大跌,落差来自时间尺度。
黄仁勋讲的是未来的需求预期,而他预告的下一代Feynman芯片架构要到2028年才上市。另外,万联证券在3月16日发布的研报中指出,A股电子板块截至3月15日的平均市盈率约为82倍,市场或在担心“高处不胜寒”。
但黄仁勋的这场演讲值得仔细看的地方不在于万亿美元这个数字本身,而在于他用两个小时讲了一套新的商业逻辑:数据中心正在从训练模型的地方,变成生产Token的工厂。
Token工厂
Token是大语言模型处理信息的基本单位,可以粗略理解为AI处理或生成的文字片段,一个汉字大约对应一到两个Token。
过去两年,Token的消耗量发生了几次量级上的跳跃。
黄仁勋在演讲中把这件事追溯到了三个节点:2022年底ChatGPT上线,AI学会了生成内容,开始大量消耗Token;ChatGPT o1模型出现后,AI学会了推理和反思,为了思考,它要在内部生成大量Token给自己看;Claude Code(Anthropic公司开发的AI编程工具)发布后,AI能读取文件、编写代码、编译测试,每完成一个任务消耗的Token比简单对话多出好几个数量级。
黄仁勋提到,英伟达所有的软件工程师都在用AI辅助编程。
AI的工作分两个阶段:训练是让模型变聪明的过程,需要花一次大钱把模型练出来;推理是模型干活的过程,每天都在发生,需求也越来越大。过去全球买GPU(图形处理器,目前AI计算的核心硬件)主要是为了训练,现在重心已经在向推理转移。
黄仁勋说,推理服务商的业务规模过去一年增长了100倍。IDC中国分析师杜昀龙也告诉经济观察报记者,目前国内推理服务器不论增速还是占比均已超过训练,从服务器出货金额来看,推理占比已接近60%。
推理的需求在爆发,但Token还没有形成市场定价体系。
黄仁勋在演讲中给出了他认为未来会出现的五档价格:免费层,Token产出量大但响应速度慢;中等层,每百万Token约3美元;高级层,每百万Token约6美元;高速层,每百万Token约45美元;顶级层,每百万Token约150美元。模型越大、上下文越长、响应速度越快,Token就越贵。
他以顶级层举了个例子:一个研究团队每天用5000万Token,按每百万Token150美元来算也就只有7500美元,对企业来说不算什么。上下文窗口从32K个Token拉到400K个Token之后,AI能一次性读完一整份合同或一整个代码库,价格对应的是此前做不了的事情。
有了分层定价,数据中心的经济模型就变了。
黄仁勋说,每一座数据中心都受电力限制,一座1GW(吉瓦,一种电力计量单位)的数据中心永远不会变成2GW,这是电力和土地决定的。在固定功率下,谁消耗每瓦电力能产出的Token最多,谁的生产成本就最低。也就是说,同样耗一度电,谁能生产更多Token,谁就能赚得更多。
他在演讲时展示了一组数字:同一个1GW数据中心,假设把算力分配给不同价格层级,使用英伟达当前的Blackwell架构年营收约300亿美元,换成新一代Vera Rubin约1500亿美元,再加上Groq LPU推理加速器约3000亿美元。同一座数据中心,换一套设备,营收可以相差10倍。
英伟达2026财年全年营收2159亿美元,数据中心业务贡献了其中的1937亿美元。
按黄仁勋的逻辑,客户现有的数据中心还没有被充分利用,换上新一代设备,同样的电力条件下收入可以翻好几倍。万亿美元预期就是这么来的,不是芯片涨价,是同样的电力能生产出更多、更贵的Token。
黄仁勋说,未来每一位CEO都会盯着自己Token工厂的效能,因为那直接就是收入。
他还描述了一个正在硅谷出现的变化:现在越来越多工程师日常用AI写代码、做研究、处理文档,这些操作都要消耗Token,企业需要为员工使用AI的开销买单。
黄仁勋预测这笔开销会大到需要单独列预算,就像企业给员工配电脑和软件一样。
他还说,未来每个工程师入职时都会拿到一份年度Token预算,金额大约相当于基础薪资的一半。
两种芯片
黄仁勋的这套Token经济学对应的硬件,是GTC上正式发布的Vera Rubin平台。
黄仁勋在演讲中说,过去谈Hopper架构的时候他会举起一块芯片,但Vera Rubin不是一块芯片的事,它是一整个系统。这套系统做到了百分之百的液冷,安装时间从过去的两天压缩到了两个小时。
Vera Rubin由七款芯片组成。核心机架NVL72集成72颗Rubin GPU和36颗Vera CPU,通过NVlink 6(英伟达自研的芯片间高速互连技术)相连。与上一代Blackwell相比,每瓦推理吞吐量最高提升10倍,单Token成本降至十分之一。
英伟达同时发布了全新88核Vera CPU,为AI智能体场景下的工具调用和数据处理做了专门优化。
黄仁勋在演讲中称,微软CEO纳德拉已向他确认,首批Vera Rubin机架已在Azure(微软的云计算平台)上运行。
但Vera Rubin有一个短板,黄仁勋在演讲时说,当每个用户每秒需要生成超过400个Token时,NVL72的带宽就不够用了。补上这个缺口的,是Groq这家成立于2016年的美国AI加速芯片公司。英伟达此前收购了Groq的技术授权和核心团队。
Groq的LPU(语言处理单元)和GPU是完全不同的两种芯片。GPU内存大、算力强,单颗Rubin GPU有288GB内存,适合处理复杂计算。LPU内存小但读写速度极快,单颗只有500MB存储,装不下大模型的完整参数,但生成Token的速度和延迟远优于GPU。
英伟达通过一套叫Dynamo的推理调度软件,把推理过程拆成了两步:需要大量算力和内存的上下文理解交给Vera Rubin处理,对延迟敏感的Token生成交给Groq LPU。两者通过以太网高速连接协同工作,延迟减少约一半。
黄仁勋管这种方式叫解耦推理(即把推理过程拆分给不同芯片处理),核心想法是承认高吞吐和低延迟天然矛盾,不如让两种芯片各干各擅长的事。
他说,这套组合在45美元和150美元的高价格层级实现了相比上一代35倍的性能提升。
从更长的时间维度看,同一个1GW的数据中心,两年时间,Token生成速率可以从每秒2200万提升到7亿。
黄仁勋给客户的建议是,如果工作以高吞吐的批量推理为主,就完全用Vera Rubin;如果有大量编程、实时交互等需求,可以拿出25%的数据中心算力配Groq LPU。
黄仁勋表示,Groq 3 LPU由三星代工,已在量产,预计今年三季度出货。
软件方面,英伟达发布了企业级智能体平台NemoClaw,支持近期火爆的开源项目OpenClaw。OpenClaw在几周之内成为GitHub(全球最大的开源代码托管平台)上增长最快的开源项目,黄仁勋把它的地位抬到和Linux同一级别,说它是智能体计算机的操作系统。
但企业环境下直接用开源的OpenClaw有安全风险,因为智能体可以访问公司的敏感数据、执行代码和外部通信。NemoClaw就是英伟达给OpenClaw加上的企业安全层。Adobe、Salesforce、SAP等17家企业软件公司已宣布采用英伟达的Agent Toolkit(智能体开发工具包)。
路线图方面,英伟达预告了2028年上市的下一代Feynman架构,首次同时支持铜缆和CPO(将光通信元件直接集成到芯片上的技术)两种互连方式。
今年也是CUDA(英伟达开发的GPU通用计算平台,被视为英伟达软件生态的基石)诞生20周年。据黄仁勋在演讲中介绍,英伟达目前60%的业务来自全球前五大云服务商,另外40%分布在主权AI、企业、工业、机器人等各个领域。
在本次GTC大会上,英伟达还宣布了与Uber、比亚迪、吉利、现代、日产、五十铃在自动驾驶领域的合作。受此消息推动,港股汽车板块17日集体走强,吉利汽车(00175.HK)盘中一度涨超5%,最终收涨4.55%。
(作者 郑晨烨)
免责声明:本文观点仅代表作者本人,供参考、交流,不构成任何建议。
![]()
郑晨烨
资深记者。关注新能源、半导体、智能汽车等新产业领域,有线索欢迎联系:zhengchenye@eeo.com.cn,微信:zcy096x。





京公网安备 11011402013531号