2025年7月,历史被再次刷新。
2025年7月,历史被再次刷新。英伟达(NVIDIA),这家由一位热爱皮夹克的华裔创办的公司,市值如火箭般冲破4万亿美元的穹顶,将一众传统巨头甩在身后,成为了全球资本市场的绝对核心。
一时间,掌声、惊叹声、泡沫论、质疑声交织在一起。媒体的头条被黄仁勋的语录、惊人的财富效应和AI吞噬一切的宏大叙事所占据。但对于每一个身处产业浪潮中的决策者——无论是投资人、企业战略家还是技术领袖——真正的问题远比股价的涨跌更为重要:
支撑这个庞大帝国的,究竟是什么?是那一块块被疯狂抢购的GPU吗?当AMD、Intel甚至各大云厂商都宣称拥有自己的AI芯片时,英伟达的“王座”为何看似坚不可摧?4万亿之后,它的增长故事又将如何续写?
为了寻找答案,我们决定采用一种“老派”但最有效的方法——与真正塑造这个行业的人进行深度对话。硅兔君利用我们深耕硅谷的专家网络,与数位身处AI战场最前线的匿名专家进行了交流。他们中,有来自顶级云厂商的AI基础设施前负责人,有主导大模型训练的首席架构师,也有在硅谷路上判断下一个技术风口的顶尖VC合伙人。
现在,请允许我们将这些珍贵的一手洞察为您呈现。这不仅是对一家公司的拆解,更是对一个时代核心驱动力的深度剖析。
01 最深的护城河,藏在看不见的代码里
当我们问及几乎所有受访专家一个相同的问题——“英伟达最核心的壁垒是什么?”时,没有一个人的答案是“芯片性能”。相反,他们都指向了一个诞生于近二十年前的产物——CUDA。
一位曾在FAANG负责构建AI平台的资深技术总监,用一个生动的比喻开启了我们的对话:
“外界最大的认知偏差,就是至今仍将英伟达视为一家硬件公司。这好比认为可口可乐的成功只在于它的瓶子。黄仁勋从2006年正式推出CUDA起,就不是在卖芯片,而是在‘传教’。他构建了一个‘英伟达教派’,CUDA就是它的圣 经。
今天,任何一个客户买走一片H100或B200,他支付的不仅是硅片的价格,更是购买了进入这个教派生态的‘门票’。这是一种无形的、却几乎所有人都必须缴纳的‘生态税’。”
CUDA(Compute Unified Device Architecture,统一计算设备架构),这个听起来颇为拗口的名字,正是英伟达所有神话的起点。在GPU还只是游戏玩家的“宝贝”时,黄仁勋就预见性地投入巨资,要将GPU的心脏——成千上万的并行计算核心——开放给通用的科学和商业计算。
这盘大棋,一走就是近20年。
它不是一个产品,而是一个生态系统。 CUDA不仅仅是一个编程接口,它包含了一整套丰富的、经过高度优化的数学库(如cuDNN用于深度神经网络、cuBLAS用于线性代及)、强大的编译器、直观的调试工具(如NVIDIA Nsight),以及一个庞大的开发者社区。
它创造了网络效应的完美范本。 越多的开发者使用CUDA,就会催生越多的基于CUDA的应用程序和框架(如TensorFlow、PyTorch);这些杀手级应用又会吸引更多的用户和开发者投身于CUDA生态。这个正向飞轮一旦转动起来,其产生的引力将是巨大的。
今天,全球有超过400万开发者在使用CUDA。任何一个AI专业的博士生,他的第一行模型代码,几乎都是在CUDA上运行的。这形成了一种强大的“肌肉记忆”,从学术界蔓延至工业界,成为了事实上的行业标准。
02 看不见的成本,看得见的壁垒
“既然CUDA这么厉害,那竞争对手,比如AMD的ROCm或者Intel的oneAPI,就不能做一个更好的来替代它吗?” 这是我们向一位负责大模型训练的首席AI架构师提出的问题。他笑了笑,反问我们:
“你知道将一个一线大厂的核心AI业务,从英伟达平台迁移到另一个平台,真正的成本是多少吗?它不是采购几万片新芯片的硬件费用,而是一张长到令人绝望的‘技术账单’,其金额可能是硬件成本的数倍,甚至十倍以上。”
在这位专家的帮助下,我们得以一窥这张“技术账单”的冰山一角:
代码重构与迁移: 这绝非简单的“查找-替换”。无数工程师耗费心血手写的、针对NVIDIA GPU底层优化的计算核心(Kernel),在AMD或Intel的芯片上必须几乎全部重写。这其中涉及到的底层硬件架构差异,是外行难以想象的。
性能优化地狱: 即便代码成功迁移,新的硬件也无法“开箱即用”地达到英伟达平台的性能。工程师需要花费数月甚至数年的时间,去进行繁琐的性能调优,解决各种意想不到的bug,才能慢慢“逼近”原来的效率。对于分秒必争的AI竞赛而言,这种时间成本是致命的。
工具链的鸿沟: 英伟达提供了如Nsight、NVProf等极其成熟的性能分析和调试工具,能帮助工程师快速定位瓶颈。而竞争对手的工具链,在稳定性、易用性和功能丰富度上,仍有数年的差距。这位架构师坦言:“在NVIDIA上一个下午就能解决的问题,在其他平台上可能需要一周,而且你还不知道问题到底出在哪。”
人才库的断层: 一个残酷的现实是,市场上精通CUDA的工程师数量,可能百倍、千倍于精通ROCm的工程师。对于企业来说,这意味着更高的招聘成本、更长的培训周期,以及项目延期的巨大风险。
生态的惰性: 像Hugging Face这样的模型社区,其上绝大多数开源模型都是为NVIDIA GPU预训练和优化的。当一个团队想快速验证一个新想法时,最快的路径永远是“下载模型,在英伟达GPU上运行”。
“总结一下,” 这位架构师最后说,“英伟达的护城河,不是它自己挖的,而是过去十五年,全球数百万开发者用一行行代码、一次次调试、一个个项目为它构建起来的。想填平这条河,需要的不是钱,而是时间,以及一个同样庞大且忠诚的开发者军团。目前来看,没人做得到。”
03 向上集成:从卖铲子到卖“淘金工厂”
如果说CUDA是英伟达的“软件灵魂”,那么其“硬件”的进化策略,同样充满了智慧。一位在硅谷20年的顶级VC合伙人,给我们提供了一个独特的商业视角:
“要理解英伟达的商业模式,你不能只看GPU,你要看它的‘客单价’是如何一步步提升的。这是一个教科书级别的‘向上集成’(Upward Integration)案例。它本质上不是在卖产品,而是在不断为客户解决更宏大、也更有价值的问题。”
这位 顶级VC 合伙人将英伟达的战略描绘成一个四级火箭:
第一级:卖“零件”-GPU芯片。 这是起点。从G80到Fermi,再到今天的Blackwell架构,英伟达始终保持着单卡性能的领先。这是它一切业务的基石。
第二级:卖“设备”- DGX/HGX服务器。 英伟达很快发现,客户需要的不是8片独立的GPU,而是一个能让这8片GPU高效协同工作的“怪兽”。于是,它通过高速互联技术NVlink和NVSwitch,将GPU紧密耦合,推出了DGX服务器。它卖的不再是零件,而是一台“开箱即用的AI超级计算机”。客单价从数千美元跃升至数十万美元。
第三级:卖“生产线”- SuperPOD集群。 当客户需要训练千亿、万亿参数的大模型时,一台DGX也不够了。英伟达通过收购Mellanox获得的InfiniBand高速网络技术,将成百上千台DGX服务器连接成一个庞大的集群,并提供一整套软件来管理它。这就是SuperPOD。它卖的不再是设备,而是一条完整的“AI模型生产线”蓝图。客单价飙升至数千万甚至数亿美元。
第四级:卖“工厂”- 数据中心级解决方案。 今天,英伟达正在向终极形态迈进。它与云服务商合作推出DGX Cloud,让客户可以按需租用一个完整的“AI工厂”。它甚至直接参与到客户数据中心的设计中。它卖的,是一种“AI能力”本身。
通过这种层层递进的策略,英伟达将自己从一个芯片供应商,变成了客户AI战略中不可或缺的、提供全栈解决方案的“总包商”。每一次集成,都解决了客户更深层次的痛点,也带来了更高的利润率和更强的客户粘性。
结语
故事到这里,似乎已经足够传奇。但对于一个4万亿美元的帝国而言,它的野心远不止于此。以 NVIDIA AI Enterprise (NVAIE) 为例,它就像是AI时代的“Windows操作系统”。企业购买英伟达的硬件后,可以再为其订阅NVAIE服务,以换取运行关键业务所必需的稳定性、安全性、技术支持和性能保障。
这不仅为英伟达开辟了一个全新的、高利润的软件订阅市场,更重要的是,它将与客户的关系从一次性交易,变成了长期的服务伙伴。
而当这种“硬件+软件+服务”的全栈能力被打磨到极致时,它就完美地契合了21世纪最重要的新趋势之一:主权AI (Sovereign AI)。
一位专注于地缘科技的专家,为我们揭示了英伟达故事的最终章:
“我们正在进入一个‘主权AI’的时代。每一个国家,都将意识到拥有自己独立的AI基础设施、自己的基础大模型、以及由本国数据训练出的AI,是21世纪国家主权的一部分,就像拥有自己的货币和军队一样重要。而谁能为这些国家提供构建‘主权AI’的全套工具?今天,答案只有一个——英伟达。”
这使得英伟达超越了一家商业公司的范畴,它的产品变成了21世纪地缘政治的战略资源。这不仅为它打开了一个以“国家”为单位的全新蓝海市场,更将其业务的确定性和不可替代性,提升到了前所未有的高度。
4万亿美元。这个数字,不是神话,也非泡沫。
本文作者:硅兔君,36氪,原文标题:《4万亿英伟达,凭什么?我们和几位硅谷核心专家聊出了答案》