“GenFlow 2.0不只是多智能体协作调度系统,它更像是人类的AI专家团。”
文|《中国企业家》记者赵东山
编辑|李原
头图来源|视觉中国
2025年,被AI从业者们称为“AI Agent元年”。
但当OpenAI的ChatGPT Agent、明星初创公司Manus等智能体在全球掀起热潮时,其便利性却并未充分展现。
任务交付质量不达预期、响应速度慢、中途无法干预、专业度不足,依然是横亘在用户与理想AI Agent之间的四座大山。人工亲自下场收拾面目全非的AI生产残局,往往变成最终的无奈之举。
这是当前AI Agent的尴尬之处,也是百度文库事业部、网盘事业部负责人王颖看到的机会。
自从2022年年底AI大模型爆发以来,文库、网盘就陆续开始进行AI重构。两年之后,文库、网盘早已从文档查阅平台、存储平台成为一站式内容获取和创作平台及一站式内容服务平台,被百度创始人李彦宏评价为“AI重构最彻底的产品”。
8月18日,文库、网盘联合发布了通用智能体“GenFlow 2.0”。这是全球首个全端通用的Agent,用户打开百度文库网页端、百度文库APP端即可直接使用,没有邀请码限制,也无需排队测试。
产品截图
AI Agent最直接的翻译是AI助手,通过理解和完成人的指令,帮人类分担部分工作。文库GenFlow 2.0的运作逻辑是:通过AI的思考规划,自主调用各种模型和PPT、文档、脑图、海报等Agent,最终为用户输出多模态内容。
比如,用户输入“设计一个三丽鸥的盲盒”,系统会瞬间输出凯蒂猫、玉桂狗的3D建模图;让它帮你“做一个十一假期7天6晚的京郊旅行规划”,它会生成一份PDF,并嵌入各个推荐景点的地图;此外,用户也可以直接调用个人百度文库或网盘的资料,让它制作定制化的公司研报。
据现场演示,文库GenFlow 2.0在执行用户任务时,相当于有100多个专业Agent组成“专家团”同时开工,几分钟内便可并行完成5~6个复杂任务。
如何破解用户真正的痛点?
“文库GenFlow 2.0不只是多智能体协作调度系统,它更像是人类的AI专家团。”王颖在发布会现场强调。
针对当前AI Agent行业存在的普遍痛点,过去半年里,文库、网盘团队主要做了如下四方面的技术和产品攻坚:
第一,针对“响应速度太慢,用户等待时间过长”的问题,文库GenFlow 2.0采用自研Multi-Agent基础架构,以让多任务并行处理,而非串行工作流。传统Agent如同流水线:任务A完成才启动任务B。而GenFlow的Multi-Agent基础架构允许上百个专家同时开工。
例如,用户在生成一份行业研报时,数据收集Agent、图表绘制Agent、竞品分析Agent、PPT排版Agent等同步启动,它们如同流水线上“同时组装快递包裹”的工人,最终将时间压缩至分钟级。
产品截图
第二,针对“任务交付质量不达预期、输出内容专业度不足”的问题,GenFlow 2.0支持调用100+多模态Agent组成的“AI专家团”,可并行生成PPT、研报、视频绘本、海报、图片、图表、HTML、代码、游戏、网站等多模态内容。
文库团队表示,会对所有可以调度的Agent做标注,比如它的专长能力、任务结果的用户采纳率、用户是否有复制和下载的动作等等,这些都会对Agent在系统做一个权重设置,影响未来Agent被请求调动起来的概率。
此前,百度文库旗下的“PPTAgent”,其全球月访问量已超3400万次。
第三,针对“用户中途无法干预”的问题,GenFlow 2.0让思考过程可实时干预。“我们发现,用户最痛苦的是,明明看着AI‘想错了’却无法中途纠正。”王颖表示。因此,文库GenFlow 2.0给出的解法是:要把AI的思考过程亮出来,同时人可以干预思考过程。
GenFlow 2.0首次实现任务执行全程可暂停、可打断、可补充指令。当用户发现某个Agent的思考方向偏离自己的意图时,可以即时介入调整,而不用等任务完成之后因为不满意再返工。
产品截图
与此同时,GenFlow 2.0还可以深度理解用户意图,自主切换协作模式。比如,当用户输入“999的2次方等于多少”“上海8月份有哪些演唱会”等简单的问题时,GenFlow 2.0可以仅调用1个Agent,直接给出答案,避免“杀鸡用牛刀”。
而在复杂任务下,用户可以同时输入多模态文件需求,GenFlow 2.0可以自主思考,并为用户调度合理的多专家Agent协同交付,去满足任务需求。
在打造GenFlow 2.0的过程中,文库网盘团队给自己设立了一个非常直接的标准——用户满意度。“Agent是为了完成工作,看最后的工作用户满不满意、采没采纳、买不买单,这就是很好的标准。其实现在的技术水平和团队水平,完全不是问题,关键是ego(自我)不要特别大。如果你觉得用户需求不存在,自己的需求就能代表用户的需求,这就很要命。”
目前,GenFlow 2.0还全面打通了百度的生态资源。比如,用户授权后可以随时检索、调用百度网盘中存储的指定资料;在旅游攻略或地址检索任务中,可以调用百度地图工具;在学术研究类任务中,支持深度搜索全网,直接调用百度学术超6.8亿篇文献库及文库超14亿专业内容。
为何是文库、网盘团队?
GenFlow 2.0的背后,源于文库两年前启动的“AI重构”。“文库团队当时选择的战略方向就是,打造AI时代的生产力闭环。”王颖曾表示。
对于用户而言,如果说Agent是生产线,要产出结果则还需要数据、文稿、PPT等生产原材料的配合。而这些,正是百度文库与网盘团队过往的积累。
“没有AI之前,我们就是一个很简单的文档检索平台。用户的创作链条很长,从有创意,到搜集信息、整合信息、编辑处理、完成,那个时候我们只做其中一个部分,但这个赛道的空间很小,就是几十亿的市场,有了大模型之后,我们就具备能服务用户的完整链路了。”王颖表示。
受访者
在AI大模型重构之后,百度文库定位为“一站式AI内容获取和创作平台”,拥有超14亿专业内容资源,并已上线智能PPT、智能写作、AI绘本、行业研究报告、AI全网搜、智能海报、智能漫画、智能小说、超能合同等数百项多模态AI Agent。
与此同时,百度网盘也升级为“一站式内容服务平台”,推出AI笔记、简单听记、简单扫描、简单打印等多项AI功能,覆盖用户在生活娱乐、学习办公、家庭教育等多场景的需求。目前,百度网盘已服务超10亿用户,月活用户超2亿,AI月活用户超8000万,使用空间总和超过1000亿GB。
据王颖此前透露,百度网盘和文库一起推出了多模态笔记,只花20天就实现了数百万级别的DAU;推出的AI相机,则用9天就做完了。百度文库和百度网盘的结合,形成了“专业公域数据+授权私域数据”的独家资源池,最终成为Agent生产线上的原材料。
其实,早在今年4月,百度文库、百度网盘就曾推出内容操作系统“沧舟OS”,李彦宏将其称之为“全球首个内容领域操作系统”,并基于该系统推出“GenFlow 1.0”版本。
“沧舟OS系统是一个特别复杂的生产线,里边有特别多的工具。但用户下达指令后,它怎么启动工作,用哪些工具一起工作,来满足你的需求,是靠GenFlow的调度系统。”王颖向《中国企业家》解释称。
王颖比喻两者的协作逻辑为“变形金刚叠罗汉”——用户只需对话统一接口的“擎天柱”—— GenFlow 2.0,背后则有数百个专业“金刚”协同变形。
未来:无所不在的AI生产力
当AI Agent能够端到端地解决问题,其行业价值也正从单一的“功能点”转向直接的“交付成果”。与此同时,AI Agent从单一工具蜕变为生产关系的重构者。
AI生成
2025年4月,百度宣布全面兼容MCP协议(Model Context Protocol,即模型上下文协议)。MCP是Anthropic推出的一种开放标准,旨在统一大型语言模型与外部数据源和工具之间的通信。MCP为所有智能体建立一套“公共语言”和“通信规则”,也被称为AI Agent交互的TCP/IP协议、HTTP标准和万能接口。
而GenFlow 2.0同样兼容MCP协议,可灵活接入第三方服务生态。
目前,荣耀成为首批接入MCP生态的硬件厂商,将GenFlow 2.0深度集成至Magic OS系统。用户通过荣耀手机助手YOYO即可一键调用个人网盘与文库资源,实现文件总结、PPT生成、旅行规划等场景的原生系统级体验。
在百度文库网盘团队设想中,未来的AI应“无所不能、无处不在”,无论是手机、平板还是IoT设备,抑或更多的生活场景,用户可随时调用AI Agent协作。
更关键的是,随着AI Agent在生态和场景中的不断扩张,普通人的创作门槛将从专业指令降为日常生活自然对话,更多商业增量空间也将被打开。正如李彦宏在2025年百度Create大会上讲的:“现在,基于MCP开发智能体,就像2010年开发移动APP。”
亿欧智库发布的报告显示,AI Agent市场规模正持续扩大,预计从2023年的574亿元增长至2028年的33009亿元。
“人人都是超级个体”的时代,或许正在被GenFlow 2.0按下加速键。“当用户发现表达更自由、过程可干预、交付更可靠时,AI才真正成为可信赖的合作伙伴。”王颖如此描述人与AI的终极相处形态。