当前位置: 首页 » 资讯 » 科技探索 » 正文

网页智能体新突破!引入协同进化世界模型,腾讯AI Lab提出新框架

IP属地 中国·北京 编辑:任飞扬 量子位 时间:2025-06-16 14:31:06

腾讯AI Lab 投稿

| 公众号 QbitAI

让网页智能体自演进突破性能天花板!

腾讯AI Lab提出WebEvolver框架,通过引入同进化的世界模型(World Model),让智能体在真实网页环境中实现10%的性能提升。

由此突破现有基于大语言模型(LLM)的网页智能体“自我迭代演进的性能最终会停滞”的瓶颈。

下面的案例展示了世界模型在GitHub搜索界面中的合成轨迹生成能力:

研究指出,世界模型具有知识迁移能力,尽管世界模型未专门训练过GitHub中“点击排序菜单”这类操作,却能准确生成GitHub搜索的排序选项(如“最佳匹配”、“最多星标”等),这表明LLM内建的网页结构常识知识具有可迁移性。

另外研究还指出世界模型具有多样化轨迹生成能力,世界模型生成的菜单项与真实网站高度吻合,证明其能有效提升与未见过网站的交互多样性,这种能力源于LLM预训练阶段吸收的海量网页知识。

团队认为,该发现验证了世界模型作为“虚拟网页引擎”的核心价值——即使存在轻微幻觉,其生成的多样化轨迹仍能显著提升Agent的训练效果。

以下是论文详情。

引入协同进化的世界模型

最近,世界模型迎来了一波热潮:Yann Lecun推出了全新的世界模型V-JEPA 2,谷歌也发布了理论成果,证明General agents need world models,这些进展都凸显了世界模型在智能体发展中的重要性。

论文指出,当前智能体自我迭代的瓶颈源于两大核心问题:

探索局限:随着训练深入,智能体策略趋于保守,难以发现新状态和动作

知识闲置:LLM预训练时积累的海量网页知识未被充分激活

就像人类需要想象力来规划行动,智能体也可以使用一个’大脑模拟器’来预演不同操作的结果。

研究团队创新性地引入了协同进化的世界模型LLM。

在网页Agent场景中,世界模型被定义为这样一种LLM:

其输入为(当前网页观测、待执行的操作),输出则是执行该操作后的网页观测。

尽管在此过程中可能会出现“幻觉”问题,例如LLM无法输出实时信息,或其内部存储的网页知识可能存在错误,但这并不影响整体框架的有效性。因为本文的核心目标是让智能体在多样化的网站环境中进行稳健推理,而非要求世界模型完美预测下一页面。

(注:未来研究可聚焦于细粒度的下一页面预测,具体可通过在生成过程中对实时信息进行占位符掩码处理,等待外部工具填充真实数据来实现。)

这个世界模型扮演着双重角色:

1、虚拟服务器:生成多样化的合成训练轨迹

通过世界模型模拟与未见网页的交互。具体操作为,将原本网页智能体系统中的网页服务器直接替换为世界模型LLM来进行交互、采集生成的轨迹,作为额外的训练数据(图2上半部分)。

2、想象引擎:推理时多步前瞻推演

使用类似WebDreamer的基于LLM对未来预测进行action筛选的方法,在每一步action生成时生成多个候选,利用世界模型来对每个action未来1~3步的结果进行预测。使用GPT-4o对候选动作评估潜在收益后执行最佳操作(图2下半部分)。

协同自演进实验技术方案详解

本研究构建了一个完整的自演进学习框架,其核心组件包括:

基础架构

数据集:OpenWebVoyager标准数据集(包含48种网站)

框架支持:Cognitive Kernel Agent浏览器交互环境

基座模型:纯文本大模型Llama-3.3(70B参数版本)

数据采集流程

采用Cognitive Kernel+Llama-3.3组合进行多步轨迹采样

通过”拒绝采样”机制筛选成功完成的轨迹

保留轨迹中的完整推理链(Chain-of-Thought)信息

双模型协同训练机制

Agent策略模型:学习轨迹中的动作决策模式

世界模型:重构为”当前观察+动作→下一观察”的预测任务

两模型共享采样数据但采用不同训练目标函数

技术突破点

首创将浏览器交互轨迹同时用于策略模型和世界模型训练

通过轨迹格式转换实现单数据源多任务学习

建立可扩展的自演进训练范式(iterative bootstrapping)

重复多轮(3轮)自演进之后,在WebVoyager和Mind2web-live数据集上进行测试,自演进结果:

结果:

自演进baseline在第二轮后增长受限

世界模型对突破性能瓶颈的关键作用

合成轨迹数据有效提升探索多样性

多步前瞻(d=2)达到最佳性价比

在GAIA和SimpleQA(前100条数据,和bing.com进行交互搜索) 这两个有标准答案的数据上进行out-of-domain测试,也能显著提升结果。

团队对世界模型的网页建模能力也进行了一些评估,在测试的轨迹里采样了一些轨迹,让世界模型根据上一步观测和执行的action预测下一步的观测。

评估标准为:

结构正确性(STR):检验生成网页的可访问性树在层级结构和元素关系上是否符合真实网页的拓扑逻辑

内容相似度(Sim.):量化生成内容与真实网页在文本语义层面的匹配程度

整体功能评估(O/A):综合判断生成网页在交互功能和语义表达上的可用性

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。