大模型热潮下,代入企业IT/AI工程师的视角却会发现,AI落地处处都是坑:
AI在企业内部应用的场景多了之后,一到业务峰值,用户并发涌上来,要是调度系统不给力、加速引擎没提效、KVCache优化不到位,服务一旦卡壳,不仅用户体验崩了,还会带来业务损失;
智能体当道,“数字员工”大量上岗,相互协作带来了大规模推理服务需求,但问题也随之而来,要么延迟超了,要么吞吐上不去,技术人员不得不熬夜做优化。
这些焦头烂额的场景,正是当前企业AI落地过程中的真实写照。AI Infra的能力支撑,变得愈发重要。
8月的2025百度云智大会上,产业对AI Infra的诉求有了明确的回应:百度智能云正式发布新一代AI基础设施,以百度百舸5.0为核心打造超节点云实例等关键能力,构建“云智一体、智能优先”的技术底座。
正如百度集团执行副总裁、百度智能云事业群总裁沈抖所言:企业对基础设施的需求已经从“降本增效”转向“直接创造价值”,AI云不再是企业的“成本中心”,而会成为新型的利润中心。
断言背后,百度智能云在AI云市场竞争中高歌猛进,65%央企选择、连续六年公有云市场第一……无论是超大规模算力调度,还是复杂产业场景落地,百度智能云都已经形成了技术突破与产业实践的双重护城河,成为行业公认的头部玩家。
但整个云市场的竞争仍在日趋白热化,云厂商纷纷将AI软硬件作为拉动增长的核心引擎,导致技术路径五花八门,解决方案层出不穷,让不少企业用户患上了选择困难症。
到底该如何选,才能真正吃透AI Infra的技术红利呢?答案恐怕还要回到产业的真实需求中去寻找。
风起云涌的AI浪潮中,很多企业都想尽快用上AI提升竞争力,但现实里却处处受限:芯片性能短期内难有大幅突破,自己建AI基础设施要花大价钱,而且企业自身大多缺乏搭建软硬件搭建的能力。
这时候,AI云就成了最优解。企业不用改造自己现有的系统,通过云端即可高效调用AI所需的算力、网络等核心能力。
不过,面对五花八门的AI云,企业到底该看什么?业内共识是,企业落地大模型时,最容易被三个地方卡住脖子:算力瓶颈、互联瓶颈、稳定性与可靠性挑战。
算力是企业应用AI的第一道关卡。
大模型训练的算力消耗就很惊人了,以OpenAI为例,今年底上线的GPU数量就超过100万块。而智能体的爆发,也使得token使用量激增,带动推理算力需求上行。
比如创下MPV纪录的罗永浩数字人直播间,前台讲解的两个数字人主播背后,助播智能体负责烘托气氛,剧本智能体撰写双人对话脚本,不同智能体按职责动态调整。每个智能体都要靠专门的AI模型驱动,这些模型同时跑起来,瞬间爆发的高并发算力需求,传统集群的固定资源分配模式完全跟不上节奏。
所以,现在AI Infra的首要任务就是打破算力瓶颈,让大模型“装得下、跑得起”。
攻克算力瓶颈,需要释放硬件性能,这时另一个卡脖子的问题又冒了出来,那就是:互联瓶颈。
现在企业建AI集群,主要走两条路:Scale Out(横向扩展)与Scale Up(纵向扩展)。其中,Scale Up超节点架构凭借单节点高密度算力集成的特性,支撑DeepSeek这类单体算力消耗不大的模型,成为企业应用AI的热门选择。但在实际落地中,用Scale Up替换Scale Out,解决EP并行下的AlltoAll通信问题,需要构建适配数十块芯片在Scale Up域内实现高速全互联的网络架构,研发与之匹配的高效通信协议,并且对上层模型服务进行对应的适配优化,通过这样的“技术组合拳”,才能充分发挥Scale Up网络,解决互联瓶颈,释放高密度算力集群的效能,支撑DeepSeek等模型在企业级AI场景中的高效部署与运行。
无论Scale Out还是与Scale Up,都绕不开一个规律:Scaling law(扩展法则),这就带来第三个难题:系统的稳定性与可靠性挑战与日俱增。
模型性能随参数规模增长的需求仍在主导着AI Infra的演进,更直接影响着MoE(混合专家模型)等前沿架构的落地诉求。像DeepSeek那样的MoE模型(混合专家模型),得调动几千上万个专家节点一起工作,再加上现在越来越多人用强化学习、搞训推一体,这些动态弹性高并发的诉求,都对系统稳定性与可靠性带来冲击。
稳定性与可靠性问题无法解决,AI服务就容易出现卡顿、延迟。这种情况下,哪怕场景需求明确、应用价值很高,AI也很难真正落地。当下阶段,单纯依赖硬件层面的优化已经不够了,必须让软件(比如推理系统)和硬件深度配合,才能增强集群韧性,保证系统稳定运行。更重要的是,深入产业场景还会发现,上述瓶颈并非是孤立存在的。
AI落地,难关重重,企业需要在诸多彼此牵制的因素中寻找解法,自然头痛不已。
而对于云厂商来说,企业的痛点既是挑战,也是机遇。要赢得这个庞大且迅速增长的市场,必须帮企业真问题,仅靠单一技术显然无法破局,唯有对AI Infra来一场彻底的系统性创新,才能在日趋激烈的竞争中撕开突破口。
任何脱离企业实际应用需求的技术探索,都难以形成稳定可信赖的服务价值。企业当下所需要的AI Infra,早已不再是简单的算力供给,还要解决网络、稳定、模型适配等一系列复杂难题。唯有如此,才能真正用好AI。
沈抖就在云智大会上直言:这几年我们一直在思考,AI云怎样才能真正做到智能优先?答案是算力、模型、数据和工程能力。基于这一判断,百度智能云推出了全新升级的百度百舸5.0。
当然了,云厂商说得再好,不如企业用户现身说法。我们还是从一个个行业和企业的切实变化,来看看新一代基础设施如何精准回应产业落地AI的核心痛点。
第一个需求,就是让AI跑起来。
最直观的就是具身智能机器人。无论是WAIC大会现场,还是世界人形机器人运动会的赛场上,跑动的机器人都贡献了不少出圈的名场面。让机器人跑起来得办好两件事:一是智商高,二就是会学习。
解决机器人的智商问题,机器人的“大脑”(决策大模型)与“小脑”(运动控制小模型)得经过高效训练,这就需要庞大算力。百度智能云的昆仑芯超节点,将64张全栈自研昆仑芯集成于单节点,实现单卡性能提升95%、单实例推理能力提升8倍,让算力无忧。
云智大会上,百度百舸还正式上线了昆仑芯超节点公有云实例,现在具身智能企业只需调用云实例,几分钟就能跑万亿级开源模型。让机器人的大脑(世界模型)和眼睛(视觉语言动作模型VLA)训得快,大幅缩短了机器人的落地周期。
二是会学习,机器人要到真实世界中接受地面摩擦力变化、障碍物突发等不确定性挑战,这要求机器人能适时调整动作策略,应对复杂条件,这就需要强化学习的试错-反馈-优化机制,来赋予机器人自主学习的灵魂,不仅对算力要求高,还需要强化学习框架,来提高具身智能企业在多模态数据处理等方面的工程能力。
百度智能云通过深度工程创新,打造了适配具身智能的百舸强化学习框架。在训练、推理、存储等环节,将吞吐推至极限,更通过系统性协同实现全局效率最优,把强化学习效率拉到了行业新高度。
北京人形机器人创新中心等“国家队”选择与百度智能云合作,正是因为在百舸的支撑下,机器人的身心都有了坚实的承载底座,加速具身智能从实验室走向家庭、工厂。
下一个需求,就是跑得快。
对金融、汽车、AIGC影视等行业来说,模型“跑得动”只是基础,“跑得快”才直接决定商业价值。
如今许多金融机构都接入了DeepSeek等开源大模型,应用在智能客服、智能投顾、文书写作等领域,但MoE模型的专家并行需要高频通信,推理时流量波动、超长文本处理需要节点协同,若网络带宽不足、延迟过高,会直接导致“算力等数据”的延迟,十分影响业务人员和用户的对话体验。
除此之外,超大规模集群的算力堆了不少,但训练效率就是上不去的问题经常出现。正如前面提到的新能源车企的智驾模型训练问题,要解决网络延迟、终端导致的训练故障,提升计算效率与资源利用率至关重要。让AI跑得快,就得打通算力和模型的通信卡点。为此,百舸5.0针对性升级VPC、RDMA、XPU-link三大网络,构建了低延迟、高可靠的通信底座,让算力跑上了高速路。
百度百舸200Gbps的高速VPC网络,能够支持巨型帧传输,可以显著提升推理阶段KV Cache传输、训练阶段Checkpoint读写这些核心环节的计算效率。单集群十万卡RDMA互联网络,可以把端到端的延迟压缩到4微秒。面对MoE模型海量、高频、延迟敏感的All-to-All通信的瓶颈,百度自研的XPU-link协议把卡间带宽提升8倍,把延迟做到国内最低,让专家并行的通信更快,最大程度地释放芯片的计算性能。
无论是垂直行业训练专有大模型,还是各行各业上线实时推理的DeepSeek,只有跑在高速通信的网络上,都能更快更高效。
第三个也是企业落地AI的底线考验:跑得稳。
2025年产业AI的一个主要变化,就是Deepseek带火了MoE架构,计算任务也从预训练转向了后训练、推理环节,而推理的工作负载会随着流量规模、上下文长度的变化而变化。各行业使用AI的热情高涨,新场景不断涌现,进一步增加了推理的动态和复杂性。
如沈抖所说,这时候单靠堆卡是不够的,需要做系统性的优化。百度智能云最新推出了百舸5.0推理系统,就是为此而来,通过软硬协同优化,为AI业务场景提供高效支撑。
今年上半年,百度百舸上线了领先业界的PD分离能力,以大规模推理的效率,而如今面对大规模、复杂MoE的场景,百度百舸5.0将分离做得更彻底,还推出了VIT分离(视觉和语言),以及Attention-MLP分离,通过深度解耦这些计算模式不同的模块,让整个系统更加高效,实现了数十倍的吞吐提升,从而更好地提升MoE 时代的推理性能。
针对多智能体协作时KV Cache增多的问题,百舸5.0 KV Cache系统还可以实时感知集群全局状态,从HBM灵活迁移至内存、SSD乃至远程分布式文件系统中,实现缓存智能管理,让存储资源的弹性适配,从而提升整体系统的调度效率与资源利用率。
在律师处理法律合同、政务部门处理超长文档等场景中,百舸5.0的自适应能力,能够根据输入文本长度动态调整张量、序列和专家并行策略,让MoE模型推理效率显著提升。128K超长文本3秒内出首字,能减少等待时间,显著提升用户的使用感受。在相同成本下,能处理更多请求,模型能完成的任务量更多了。
还有像3D建模平台VAST这样的企业,如果平台的百万设计师同时在线调用模型,那么百舸5.0的智能调度,通过数据并行、专家并行双重负载均衡,优化推理效率,即使是大规模高并发的实时访问场景,也能为设计师们源源不断的创作灵感保驾护航。
可以发现,百舸5.0的四大升级并非孤立技术,而是围绕“企业如何用好AI”来构建系统性解决方案。
这也印证了产业实践中,算力瓶颈、网络瓶颈与稳定性与可靠性挑战三大关卡彼此制约的复杂难题,必须靠组合拳才能击穿。举个例子,业内也有云厂商推出了吸引眼球的技术,如高密度超节点,但并没有搭好云实例,企业看得到但用不上,最后还是卡在上不了手的死胡同。
让企业真正靠AI Infra把AI用起来,百舸5.0的系统性方案,正是百度智能云轰向AI落地关卡的一组组合拳。
一位油气领域专家曾向我们感慨:智能化一旦启动,就不会停止。这是行业一线从业者的真实体感,而综合数据也印证了这一点。
IDC发布的 《2025年第一季度全球服务器市场跟踪报告》显示,2025 年第一季度服务器销量大幅上涨,其中GPU需求成为推动增长的核心因素。随着AI大模型的广泛应用,企业对GPU加速服务器与云端算力的依赖显著加强,原本依赖本地数据中心的组织,正在将AI相关工作负载逐步迁移至云端;而已经部署云架构的企业,也在持续将AI能力嵌入业务流程与数据系统,带动对GPU与云基础设施的长期需求。
对各行各业来说,智能化是一场漫长的长跑,那么, AI云市场,谁能陪企业跑得更远、更久?
一份报告揭开了行业秘密:8月18日IDC发布的IDC报告显示,2024年中国AI公有云服务市场规模达195.9亿元,百度智能云以24.6%的市场份额稳居第一,连续六年、累计十次蝉联中国AI公有云市场冠军。
百度智能云能成为65%央企的AI创新合作伙伴,背后的秘密或许就藏在累计十次、六连冠的长期主义中。毫无疑问,百度智能云是一个深耕AI云赛道的耐力型选手,技术能力和产业耐力都得到了时间的检验。这意味着,在政企落地AI的智能化长跑中,选择百度智能云一同陪跑,会得到以下助力:
一是多年沉淀的产业级技术护城河。从云智大会披露的进展来看,昆仑芯超节点云实例、百舸训推升级、强化学习框架等产品、新技术,不只是为了炫技,更紧贴产业需求。这种技术竞争力,来自百度智能云多年来押注产业智能化的积累。早在2015年百度正式对外提供云服务时,便强调云的智能属性。2019年,百度智能云将“云+AI”确立为核心战略,提出“云智一体、深入产业”,进一步明确了AI云的发展方向。
能深度理解AI业务,并具备持续迭代的技术韧性,这在公有云市场当中是一种十分稀缺的能力,也为产业客户带来了长期信心。
特别是对于大型政企来说,业务关系国计民生,在布局AI时,每一次选择都关乎产业升级的方向与节奏。中国邮政储蓄银行依托百舸完成GPU/CPU算力重组,提升混合芯片集群利用率;长安汽车也牵手百度智能云建设AI基础设施,进一步加速智能驾驶模型迭代。这些企业本质是选择一个战略伙伴,作为智能化路上的定心丸和压舱石,支撑自身转型的全周期需求。
二是300+行业场景验证的AI落地方法论。产业AI的本质是“产业为先”,技术落地必须贴合业务场景的节奏,无法一蹴而就。百度智能云在服务政企的过程中,积累了覆盖金融(招行)、能源(中石化)、汽车(长安汽车)、AIGC(生数科技)、具身智能(人形机器人创新中心)的300+场景经验,既能为行业龙头提供超大规模算力调度,也能为创业公司提供精准场景突破,与各个产品同频共进,精准赋能,才能让技术真正成为智能升级的助推器。
智能化征程中,每一个人与企业都是跑者。而AI Infra作为底层根基,牵一发而动全身,一旦在企业中扎下根来,就很难被轻易替代。正因如此,当下的AI云市场不是温和竞逐,而是抢算力、拼方案的白热化厮杀,本质是跟时间赛跑,抢夺企业AI陪跑者的身位。
谁能抢先接住企业落地AI的真需求,相当于拿下了未来的市场。百度智能云累计十次、连续六年蝉联中国AI公有云冠军,就是佐证。把技术突破转化成贴合用户的智能化陪跑能力,不仅抢到了与65%央企共同探索AI创新的入场券,更是为自己筑起了别人难以快速赶上的领先优势。
目前AI技术仍在快速迭代,Infra层面仍存挑战,这也提醒我们,唯有以技术破局、为产业筑牢底座,云厂商才能赢下这场AI决战。