作者 | 黄小艺
邮箱 | huangxiaoyi@pingwest.com
当我们在讨论Agent时,我们在讨论什么?
是炫酷的UI?是调用工具的广度?是复杂任务的拆解能力?还是能节省多少时间和人力成本?是,但也不是。
当整个大模型行业都将变革的焦点汇聚到Agent之上时,如今Agent本身已经远不止是一个包裹着“套壳”争议的应用程序了。
一个强大的Agent,需要能够处理长达百万级Token的上下文,以维系长期记忆和复杂任务的理解;它需要具备文本、图像、语音等多模态能力,以完成复杂的任务和交互;更重要的是,它需要具备自主进化的潜力,通过强化学习将执行任务的结果反馈于模型训练,形成一个不断学习和优化的闭环。
换言之,Agent是AI能力的集大成者,复杂的任务要求Agent必须有AI基础设施的支持。云,尤其是其算力利用效率,成为了决定Agent能否规模化落地的关键。
而事实上,在当前的行业里,能够提供如此系统性支撑的云厂商并不多。其根本原因在于,云的“AI属性”是否足够强大。传统的云计算以CPU为中心,为“降本增效”而生;而Agent时代的基础设施,必须是以GPU为核心、以智能为优先的AI云,为“价值创造”而建。
当我们带着这个视角,再来审视百度在2025云智大会上发布的系列更新时,就会发现,从底层的AI计算平台百舸5.0,到上层的AI原生开发平台千帆4.0,百度智能云此次的全栈升级,其核心逻辑都指向了一个关键词:效率。而这是Agent时代对云最根本、最迫切的需求。
1
Agent的三重需求,如何重塑云的系统性能力?
Agent的爆发式增长,揭示了其对底层基础设施的三重共性需求,而这三重需求正在从根本上重塑云的形态。
一方面,Agent需要处理越来越长的上下文。无论是为了维持长期对话记忆,还是为了理解复杂的业务文档,长上下文处理能力都是基础。这直接转化为对存储带宽和计算效率的严苛要求。
其次,Agent需要执行多类型的任务。从理解图表、分析视频到与用户进行语音交互,Agent必须具备强大的多模态能力,才能真正成为人类在数字世界和物理世界中的得力助手。
更关键的是,Agent需要具备自主进化的能力。一个静态的、无法从与环境交互中学习的Agent,其价值是有限的。未来的主流将是能够通过强化学习(RL)不断自我优化的Agent,这意味着底层云平台必须支持“训推一体”的计算范式。
这三重需求,对传统云服务商构成了新的计算挑战。
而百度智能云此次发布的百舸5.0 AI计算平台,则为行业提出了一种解决方案,即通过对网络、算力、推理系统以及训推一体效率的全面升级,为Agent时代构建新的计算底座。
“百舸5.0一句话来说,就是我们围绕MOE模型架构做了从芯片到框架到集群的协同优化,把MOE的效能做到比较极致的状态。”百度首席科学家王雁鹏说道。
首先,是从底层网络基础设施开始,百舸先升级了“三张网”。
大模型计算是集体作战,节点内的卡间通信(X-link)、节点间的集群组网(RDMA)以及连接存储的VPC网络,三者缺一不可。百舸5.0将VPC网络提升至200Gbps,支持10万卡的RDMA网络互联,并将端到端延迟压缩至4微秒。特别是针对万亿参数MoE模型海量的All-to-All通信瓶颈,百度自研的X-link协议将卡间带宽提升8倍,为计算效率铺平了道路。
其次,在网络优化的基础上,计算能力也要突破和提升。本次大会上,昆仑芯超节点正式上线公有云。这意味着,过去仅存于少数巨头实验室的顶级算力,如今企业用户触手可及。
所谓昆仑芯超节点,就是将64张卡放到同一个机柜,一个机柜顶过去100台服务器。超节点用卡间互联代替机间互联,实现单卡性能提升13倍,单机训练性能提升10倍。
百度集团执行副总裁、百度智能云事业群总裁沈抖在发布会上提到:“目前最大的开源模型参数达到了1万亿。现在,(借助昆仑芯超节点)只需要几分钟、1个云实例,就可以轻松跑起来。”其单卡吞吐比国内同类产品高出15%以上,也为Agent的复杂思考提供了动力。
而最关键的是推理系统的革命性改造,这直接回应了Agent对实时性和灵活性的核心需求。
Agent的应用场景流量动态多变,对响应速度要求极高。百舸5.0的推理系统进行了一场彻底的架构升级,从早期的PD(Prefill/Decode)分离,演进到将视觉与语言、Attention与MLP等计算方式差异巨大的模块全部解耦的“完全分离式架构”。
而面对长文本推理,百舸通过自适应混合并行策略,将16K输入的首Token延迟(TTFT)降低到0.5秒。同时,通过双重负载均衡和首创的事件驱动分布式KV Cache,用存储换计算。数据显示,这一系列优化使得在百舸5.0上,DeepSeek R1这类主流MoE模型的推理吞吐能够再提升50%,意味着“相同的成本,能让模型多做50%的思考”。
此外,针对RL“推理采样、奖励评估、训练更新”流水线的复杂工程挑战,百舸5.0还推出了新的强化学习框架。在这一框架下,百舸通过实现共享统一存储,消除了耗时的跨系统数据迁移(ETL),并将工具调用原生融入强化学习的采样阶段,让训练出的模型天生就更擅长执行真实世界的任务。
为支撑这一过程,百舸不仅提供了支持海量工具高并发执行的强隔离沙箱,还能将推理、训练、工具调用等不同模块智能匹配给最合适的GPU、XPU或CPU算力。这一系列系统性优化在显著提升资源利用率、降低迭代成本的同时,也大幅缩短了单轮迭代时间,从而加速了从“回答问题的模型”向“解决问题的Agentic系统”的进化。
从网络到算力,从推理到训推一体,百舸5.0的系统性升级,也勾勒出Agent时代AI云在算力层应有的样貌:高效、深度协同、为AI而生。
1
从百舸到千帆,全栈能力正在重新定义云服务
如果说百舸5.0构建了Agent时代坚实的计算地基,那么全面升级的百度智能云千帆平台4.0,则是在这片地基上,为广大开发者和企业搭建起了一座通往Agent应用繁荣的“AI能力工厂”。
一个显著的行业变化是,企业对AI平台的关注点已发生根本性转变。百度智能云AI与大模型平台总经理忻舟在沟通会上提到,客户的需求已从前两年“模型参数量要达到千亿”,转向如今“平台要可用,不要挂掉”。AI正从概念验证走向核心生产环境,企业开始真正关心应用的稳定性、成本和实际效果。
当前,客户的核心痛点可以归结为四点:追求更高的应用精度、更低的开发门槛、更优的成本效益和更强的系统稳定性。
而百度智能云千帆4.0的升级,也围绕这四点展开。忻舟提到,“企业级Agent的落地包含四个关键点。第一,是一个能够处理复杂任务的智能体编排框架;其次,有了编排框架后,Agent还需要‘趁手的工具’,因此与之配套的高质量能力组件就变得非常重要;第三是模型。Agent的应用带来了模型是否需要持续迭代、需要何种模型,以及是否应为具体落地场景开发行业或场景模型等一系列问题,尤其后者在业内尚未形成共识;最后,是Agent在实际运行中所必需的安全、高可用和可观测等企业级能力。”
具体来看,在Agent编排能力上,千帆4.0提供了自主规划、工作流、多智能体协作三种编排方式,让开发者可以根据任务复杂度灵活选择。特别是针对复杂任务,千帆发布了多智能体协作模式,允许不同Agent各司其职,协同完成如市场分析、科研等复杂工作,让企业可以便捷地定制自己的“Manus”,从而大幅降低开发门槛。
“我们在工作流的方式上实现了精准的编排、效果可控、节点丰富,也开放了更多的能力让用户用得更顺畅,目前千帆平台上工作流智能体占比超过80%。”忻舟说道。
而在组件上,此次千帆4.0发布了多模态RAG、百度AI搜索MCP Server两大核心工具,进一步提升Agent的精度与能力。
其中,多模态RAG不仅支持图片、表格等多种数据类型的检索,还独家提供了图谱增强能力,对于需要深度关系查询的金融风控、企业知识管理等场景效果提升显著。例如,九号公司利用多模态RAG,让其多语种智能客服能够“看懂”用户发来的故障图片,并给出精准指导。
而百度AI搜索MCP Server,则是为Agent提供了弥补时效性短板的关键能力。与给人用的搜索强调“排序”不同,给AI用的搜索更注重结果的“全面、权威、丰富”,因为大模型有能力一次性处理海量信息。vivo的“蓝心小V”手机助手,能给通过调用AI搜索,才能为用户规划实时的观鸟路线。
忻舟还提到,该服务自上线以来,AI搜索的日调用量增长非常迅速。刚刚推出几个月,每天的调用量已经达千万级,调用的客户覆盖了互联网、手机、汽车、金融、教育等行业。
在模型优化上,由于客户来自于不同领域、不同业务,模型层也需要针对性的创新与优化,才能实现高精度与低成本的平衡。
如今,千帆的模型库已扩充至超过150个,并第一时间引入SOTA模型,同时通过分布式部署优化,解决了MoE等大模型单机部署效率低下的问题。在这一基础上,针对企业在真实场景中对“性价比”的极致追求,千帆推出了RFT(强化反馈精调)工具链,让企业仅用数百条样本数据,就能达到传统SFT方法数千条数据的效果。
例如智联招聘,即通过此方案,用百亿模型达到了千亿模型在人岗匹配任务上的准确率。此外,千帆还推出了超10款自研行业专精模型,如金融领域的千帆慧金金融行业模型,在保证效果领先的同时,以更小的模型尺寸,帮助企业摆脱部署限制,实现成本与效果的最优解。
在满足了企业对精度、成本和开发门槛的追求后,百度智能云千帆4.0的升级最终回应了客户的第四个、也是最基础的核心痛点:系统稳定性。千帆Agent平台不仅有覆盖内容、平台、数据、模型全方位的安全保障,还有从关键指标、链路到日志的全链路可观测能力,确保Agent在核心生产系统中能够安全、稳定、可靠地运行。
1
结尾
从百舸到千帆,百度智能云此次的全栈更新,不仅是对Agent时代云计算需求的一次深刻回应,更是其“云智一体”战略优势的集中体现。这种从底层算力到上层应用开发平台的端到端优化能力,使得企业的应用需求可以直接下沉到算力层,进行深度协同优化,而不是一迭代,就要推倒重来,由此形成了其他云厂商难以在短期内复制的核心竞争力。
AI技术的发展是一个漫长的进程。当云计算刚刚兴起时,许多人认为“云就是云,AI就是AI”。但今天,两者已密不可分。根据IDC报告,百度智能云已连续六年位居中国AI公有云服务市场第一。这并非偶然,而是源于其十年前便确立的“三位一体”发展策略,以及作为全球AI云首倡者,对“智能”方向的长期投入。
这条“难而正确的路”,让百度智能云在技术代际变革的浪潮中,构建了技术护城河和系统性能力。
正如沈抖在大会上提到的,“去年我们说,有多少场景,就有多少Agents;而现在,一个岗位、一个场景,可能会是几个、几十个Agents。当价值的创造方式被重构,产业链也会进化,在未来的智能经济时代,一定要有新的基础设施来支撑。”
Agent的爆发只是智能经济“超级周期”的开端,未来必将涌现更多颠覆性的应用范式。而百度,正在为这场长跑做好准备。
点个爱心,再走 吧