文 | 贝克街探案官,作者 | 鲁镇西
48小时内,智谱AI和MiniMax先后通过港交所上市聆讯,有人说这是大模型第一股之争,也有人说这是研制大模型的公司资金告急,无法形成盈利亟需二级市场输血。
根据财报,智谱2022年至2025年上半年,累计亏损超62亿元;MiniMax2023年、2024年分别亏损2.69亿美元、4.65亿美元,2025年前9个月亏损5.12亿美元,累计亏损超87亿元。
由此可见,“不挣钱”确实是大模型行业内玩家暂时无法逾越的鸿沟,这个行业内的头部玩家们,一边在刷新人类智能的上限,一边在以惊人的速度烧钱,颇有一丝参数越大,亏损越深;能力越强,账越难算。
当市场还在讨论“谁的模型更聪明”时,一个更残酷的问题,如果连最聪明的机器,都算不清这笔账,这还是一门好生意吗?一个长期亏损、短期看不到盈利的行业,是否仍然值得投入?
01 真正的科技浪潮,都曾长期亏损
每一次科技变革的风口来临之前,没人能预见风往哪吹,只有坚持长期主义,并且持续稳定投入的玩家,才能迎来那阵风。
比如亚马逊,在1997–2001年,亚马逊连续5年净亏损,2000年互联网泡沫期间,股价从113美元跌到6美元,至2003年才首次实现全年盈利,公司成立10年,累计亏损超过210亿元。
华尔街在亚马逊盈利之前,认为亚马逊的物流资产太重,毛利率太低,无限扩张也没有盈利纪律,所以断言亚马逊不可能赚钱,它卖得越多,亏得越多。
但在2019年开始,无论华尔街的精英们是因为换了一代人,还是因为看到了亚马逊的增长空间,开始合力将亚马逊的股价推至2万亿美元,超越微软,一度成为全球市值最高的上市公司,虽然目前再度被苹果、英伟达和微软反超,但亚马逊的价值已经被市场承认,目前市值稳定在2.5万亿左右。
![]()
亚马逊不是个例,另一家长期亏损且差点破产的代表公司,就是现在网友熟知的特斯拉。2003–2019 年,特斯拉累计亏损超420亿元,尤其是2017年至2018年,特斯拉CEO埃隆·马斯克(Elon Musk)在接受采访时表示,今年在实现Model3产量目标前,特斯拉距离“破产不足10周”。
2018年的特斯拉,饱受“电动车不可能规模化”“智驾是PPT”等质疑,而且当时电动车产业链也不成熟,电池成本居高不下,软件决定车辆等级的宣传也颠覆了大量消费者对汽车的认知。但随着电池成本下降,智驾软件(FSD)带来收益,特斯拉终于成为市场认可的焦点。
除这两家公司外,云计算不仅曾长期亏损,还在2006年至2010年期间被市场“无视”,一度被定义为“IT外包2.0”,包括从业人员在内的大多数人,认为企业不会把核心系统放云上,时至今日,云计算成为全球最赚钱的云平台,A股上市公司中,传统企业转型最多的就是云计算公司,长期毛利率30%+。当行业站上风口时,又有业内人士公开表示:“前期亏损是入场门槛”。
或许有人认为,无论是亚马逊、特斯拉,还是云计算以及移动互联网,这些曾经长期亏损,如今实现盈利的公司或行业已经跑出来了,随便世人如何讴歌其筚路蓝缕的奋斗过程,并非所有长期亏损的公司或行业,最终都能等来盈利拐点。
事实是,科技浪潮涌来前期的普遍性亏损,其共同特征并非“忽视盈利”,而是将资源持续投入到难以复制的系统性能力建设中。一旦基础设施成型,盈利拐点往往以非线性方式出现。
亚马逊亏了十年,却把钱砸进了仓储、物流和云计算,最终变成了全球最重的电商与云基础设施;特斯拉多年烧钱,是在赌电池成本曲线和规模化制造,一旦跨过临界点,利润瞬间释放;云计算早期长期不被看好,却用亏损换来了数据中心和调度系统,最终成为高毛利的现金牛。
对于一个新兴行业而言,真正危险的,从来不是亏损本身,而是亏损没有换来任何不可替代的东西。
02 大模型的广泛应用场景和不可替代性
恰巧,现在亏损的大模型行业,就具有显著的不可替代性。
大模型,是通过海量数据训练、具备通用认知与生成能力、可以跨任务迁移使用的人工智能模型。通常指参数规模达到数十亿乃至万亿级,通过大规模数据与算力训练而成,具备跨任务泛化能力的人工智能模型, 核心特征在于:模型不再针对单一任务设计,而是通过统一的模型结构,在多种复杂任务中表现出通用智能能力。大模型可以赋能多个行业,上到航天、航空,下到港口、保洁、采矿。
以前文的特斯拉为例,2021年,特斯拉推出BEV+Transformer智能驾驶解决方案,解决了2D到3D转换、多传感器融合以及复杂场景感知的难题。
在感知阶段,BEV(鸟瞰图)通过将纯视觉传感器的多模态数据融合在同一平面上的方法,将2D平面图像升级至BEV视角,以全局视角解决数据之间的遮挡和重叠问题,提高物体检测和跟踪的精度,从而摆脱对高精地图的依赖。
深度学习神经网络模型(Transformer)的自注意力机制能够分析BEV特征图中的不同位置特征,实现从二维图像特征到三维向量空间的转换,帮助系统理解物体之间的空间关系,进而提升感知能力。
除此之外,Transformer能够输出环境的高层次语义信息,包括物体类别、位置、运动趋势等,在决策模块中,通过结合高层信息与其他预测结果,可生成更加准确的驾驶策略。BEV+Transformer架构显著提升了系统的感知和决策能力,增强了系统对于“长尾场景”的适应性,逐渐具备应对城市道路的复杂环境的能力,打破了智能驾驶只适用于高速场景的局限,开始向城市 NOA 逐步探索。
![]()
2022年,特斯拉进一步引入占用网络技术(OCC)以提高智能驾驶的动态障碍物识别和复杂场景泛化能力;2023 年,特斯拉端推出将“感知-决策-控制”全流程整合为端到端一体化架构的智能驾驶解决方案。
在特斯拉的扰动下,智驾行业纷纷引入大模型,并演进出“模块化端到端”与“一体化端到端”的技术路径之争。
模块化端到端方面,2024年4月华为发布设计为“GOD感知网络+PDP决策网络+本能安全网络”的乾崑ADS3.0架构,采用三网协同的端到端大模型,通过GOD提供无损感知数据、PDP进行拟人决策、本能安全网络兜底应急的策略,形成“感知-决策-安全”闭环。
2024年5月小鹏发布国内首个量产端到端大模型XNGP+,整合神经网络XNet、规控大模型XPlanner和大语言模型XBrain三大板块,XBrain由感知模块XNet2.0和规划控制模块XPlanner构成,二者通过神经网络直接连接实现模块间的深度耦合,通过三网融合形成了小鹏自己的端到端智驾大模型。
一体化端到端方面,2024年10月理想推出OneModel端到端+VLM双系统架构,通过单一模型端到端架构(One Model)实现从传感器输入到行驶轨迹输出的全链条直接映射,同时引入视觉语言模型(VLM)构建双系统并行框架,利用VLM的认知推理能力规范端到端模型的行为下限,从而在拟人化驾驶、复杂场景处理和安全冗余层面实现突破。
![]()
端到端架构下,模型从海量数据中学习规律,不再依赖人工迭代规则库以新驾驶场景,具备了全局优化能力和数据驱动的泛化特性,真正实现了从“规则驱动”向“数据驱动”的跨越,进一步解决部分长尾场景与拟人化决策,显著提升了智能驾驶系统的性能,推动智能驾驶向L3级别过渡。
进入L3时代后,端到端模型依旧存在明显的数据瓶颈和泛化缺陷。在端到端架构下,模型观看大量的驾驶视频片段,学习场景的时空特征与驾驶策略的映射关系,直接生成车辆控制指令。
端到端技术具备无损传递、全局优化和一定的泛化能力,能够达到L2级别部分自动驾驶的要求,但是该技术自身的局限性制约着L3级别下全动态驾驶任务自主执行的实现。
此时就要进一步引入VLA 大模型,即Vision(视觉)、Language(语言)、Action(动作),可以从能够输出动作指令,升级到能够思考为什么要输出相应的动作指令。国内企业理想、小鹏均布局了该技术领域,并积累了一定技术储备。
![]()
大模型在智驾领域取得的成就,再次推动算力领域的投入,包括车载算力芯片研发和云计算储备,这也是大模型行业内玩家一直亏损,却一直有投资的主要原因之一,就是可以推进多行业融合,实现多行业共同迭代。
![]()
03 大模型迭代路径和终局猜想
能帮助其他行业更好发展的大模型,没有理由被市场淘汰,更不会等不到属于行业拐点。现在唯一需要担心的,是在这个行业里,谁能活到不需要讲故事的那一天。
当前主流大模型集中于中美,基于Artificial Analysis的数据与模型智能指标观察,当前头部模型整体由美国阵营领跑,海外最具代表性者为OpenAI、xAI、Anthropic与Google;曾在开源方向表现突出的meta,受Llama4系列推进不顺等因素影响,模型性能阶段性落后。
国内方面,从模型性能维度评估,DeepSeek、Qwen(阿里系)、智谱模型位居前列,Kimi与MiniMax等亦处于国内较为领先的行列。腾讯、百度的模型没有被纳入排行榜单,但其模型依然各有特色,上述格局反映了中美在基础模型与工程化推进上的综合优势。
从现阶段表现看,Google在上述各维度的能力布局相对均衡且覆盖面广,体现为底层自研硬件(TPU系列)到应用的端到端一体化优势。相对而言,其他玩家也在逐步补齐短板,如OpenAI在底层定制化硬件方面暂处于落后位置,但是据路透社信息,OpenAI已宣布与博通合作开发新一代ASIC芯片,以期强化算力与成本控制的基础能力;国内DeepSeekV3.1及之后系列、智谱GLM4.6在Day0即适配了国产芯片。
![]()
梳理上述模型不难发现,当前全球大模型仍以Transformer的decoder-only架构为核心主流。尽管近年来陆续出现如Mamba、KAN等新型网络结构,但尚未在工程实践中形成主导地位,Transformer体系依旧占据核心位置,短期内,Transformer仍将是大模型研发与优化的基础框架,其生态与工具链优势将继续巩固主导地位。
目前有可能挑战Transformer架构的,就是Sora搭载的Diffusion架构,只不过该架构主要用于图像与视频生成。
2024年初Sora的发布,展现了Diffusion与Transformer结合的潜力,显著提升了视频生成的一致性、分辨率及时长表现。25年5月,Google首次尝试将Diffusion算法用于文本生成,发布Gemini Diffusion预览版,字节随后也推出Seed Diffusion以跟进相关方向。目前有观点认为,字节Seed Diffusion Preview性能超过Google Gemini Diffusion。
![]()
Transformer体系下,Scaling Law是核心逻辑,Scaling Law2.0以“后训练+强化学习”为核心路径,Grok迭代验证该方向。
围绕xAI的发布节奏可见Scaling Law侧重的迁移。在Scaling Law1.0阶段,对应xAI自Grok2到Grok3的迭代,主要通过将预训练算力扩大约10倍带来性能跃升;Grok3的推理模型标志着Grok模型进入后训练阶段;至Grok4发布,其后训练(Reasoning)相较Grok3再度将算力放大约10倍,使得后训练算力需求接近预训练。
从目前头部模型迭代进度看,后训练的算力需求还有可能继续增加。据xAI官网,Grok4依托20万卡级别的Colossus大规模集群进行训练,因此,持续扩大后训练的模式与海外更高密度算力核集群禀赋相匹配。
Scaling Law2.0体现出算力重心由预训练向后训练与推理环节迁移,并对高密度集群供给提出更高要求。Grok 4.1又在强化学习奖励范式上引入 Agent 模型奖励,并继续在后训练算力上有数量级提升。
值得注意的是,在大模型迅速迭代下,各家公司除了追求技术外,还纷纷涌入算力扩张之路,尤其以OpenAI最为迅猛。
![]()
而国内企业由于算力受限,不得不进行创新性架构优化,抓住Attention本质,以阿里、DeepSeek最具代表性。
从当前技术演进看,Transformer架构在中短期内仍将是主流,其核心算法Attention机制(通过计算Tokens间相关性以预测最优输出),构成了模型性能的关键环节。因此,国内头部厂商普遍聚焦于Attention层面的优化与创新,其中以阿里的Qwen系列与DeepSeek的模型为典型代表。在算力约束难以短期突破的情况下,架构创新与算法精炼将成为国内基础模型竞争的主要方向。
以DeepSeek V3.2为例,DeepSeek V3.2-Exp 在性能上与上一版 V3.1-Terminus 差距不大,并将 V3.2 定位为“迈向新一代架构”的中间步骤。V3.2最大的进步体现在DSA(Dynamic Sparse Attention)的引入,模型训练与推理效率显著提升,相比上一代模型API输入与输出成本分别下降约50%与75%以上(推理成本)。
DSA的核心优化集中在Attention机制层,通过算子级与内核级的工程化重构,在长上下文任务中显著压缩训练与推理开销,同时尽量保持模型性能稳定,延续了以架构精修换取综合效率提升的技术路线,该版本体现出在算力约束下的务实取舍,既为后续架构演进奠定技术基础,也展示出国产模型在底层优化方面的持续积累。
![]()
![]()
DSV3框架的成功,令很多模型在DeepSeek V3框架引入针对性架构优化,如Kimi K2,K2主要改进包括验证在激活参数不变的条件下,单纯提升MoE总参数量依然符合Scaling规律,训练与验证loss持续下降且无过拟合迹象;适度减少Attentionhead数量,在保持性能稳定的同时显著降低算力开销;仅保留首层dense层,其余全部采用MoE结构,以改善首层router负载不均并提升专家利用效率;引入无分组的简化router,优化计算路径与参数调度;将模型参数从V3的671B提升到1T;引入MuonClip优化器,显著提升训练稳定性与收敛一致性。
得益于上述改进,K2在维持与DeepSeekv3相当的训练与推理成本下,实现了更低loss 与更高参数效率。K2的路径体现了国内团队在算力约束下通过结构精修延展Scaling规律、提升模型性价比的工程化思路。
![]()
在头部玩家的合力推动下,推理/非推理模型统一后,模型应用转折点或将到来,比如GPT-5以统一架构实现快思与深思的自适应协同,并以路由器按任务动态分配资源,GPT-5.1以自适应推理与细化模型分工提升智能表现与交互体验;DeepSeek V3.1以混合推理架构落地统一模型,实现单体兼容快思与深思。
在统一系统落地之后,头部大模型厂商的研发重心正逐步由底层模型优化转向上层应用与商业化探索,技术竞争正从模型理论创新转向产品体验与生态建设。
结语
当大模型的“底座”逐渐统一,真正的竞争才刚刚开始。
现阶段,大模型行业就像高速公路已经修好,接下来拼的就不再是谁会铺路,而是谁能造出更多跑得起来的车。
当大模型的底层系统逐步统一,厂商的竞争自然从“模型有多强”,转向“产品好不好用、生态能不能跑起来”。技术优势开始让位于商业能力,真正的考验才刚刚开始。
行业内的头部厂商,早已不再纠结模型再大一点、参数再多一点,而是把重心转向:谁的产品更好用,谁能先把智能卖出去。这意味着,大模型之争正在从实验室里的理论创新,转移到真实世界的产品体验和生态争夺,今天正在亏损的企业,谁敢断言不会迎风起飞,成为下一个亚马逊或者特斯拉?





京公网安备 11011402013531号