当前位置：首页 » 资讯 » 新科技 » 正文

通义千问团队发布Qwen-AgentWorld：原生语言世界模型开启智能体交互新篇章

IP属地中国·北京 编辑：大力财经头部财经 时间：2026-06-24 15:41:04

阿里通义千问团队近日宣布推出全球首个原生语言世界模型Qwen-AgentWorld，该模型通过模拟七大领域的智能体交互环境，在复杂任务处理能力上实现突破性进展。基于超过一千万条真实交互轨迹数据，模型采用CPT→SFT→RL三阶段训练架构，在全新发布的AgentWorldBench评测基准中超越GPT-5.4、Claude Opus 4.8等国际顶尖模型，成为智能体训练领域的重要里程碑。
该模型突破性地将环境建模融入训练全流程，形成原生世界建模范式。在CPT阶段通过交互轨迹学习环境知识，引入信息论损失掩码技术精准识别关键对话轮次；SFT阶段创新性地激活思维链推理模式进行状态预测；RL阶段则采用混合奖励信号优化输出质量。这种训练架构使模型在Web、OS、Android等GUI领域实现纯文本建模替代视觉渲染，通过可渲染代码直接呈现环境观测数据。
评测数据显示，3970亿参数版本的Qwen-AgentWorld在七大领域综合得分58.71，较GPT-5.4高出0.46分，尤其在Terminal和SWE领域展现显著优势。350亿参数版本通过三阶段训练实现8.66分的性能跃升，成功超越Claude Sonnet 4.6等同等规模模型。所有测试样本均配备真实环境执行的ground-truth数据，确保评测结果的可靠性。
研究团队提出两种互补的世界建模应用模式：作为解耦环境模拟器时，可为强化学习提供可控的虚拟训练场，其塑造智能体行为的能力远超真实环境训练；作为统一基础模型时，预热训练后的模型可直接迁移至多轮任务场景，无需额外微调即可保持优异性能。目前模型架构与评测基准已在Hugging Face和ModelScope平台开源，为全球研究者提供完整的技术框架与评估工具。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

沈阳至广州汽车托运如何选？看资质运力服务口碑，百联运车成靠谱之选

墨水屏护眼新体验，科大讯飞阅读器：让阅读更舒适更环保更智能

小米YU7 GT高性能纯电轿跑SUV：浙赛自动驾驶圈速新纪录1分49秒434诞生

小米YU7 GT自动驾驶创佳绩！浙赛纪录诞生，还达成纽北首个自动驾驶圈速纪录

小米YU7 GT智驾浙赛破纪录！国产智驾以硬核实力改写全球性能车格局

小米电池升级服务再扩军！小米14系列预计2026年Q4加入，老机型续航焕新

全站最新

沈阳至广州汽车托运如何选？看资质运力服务口碑，百联运车成靠谱之选

墨水屏护眼新体验，科大讯飞阅读器：让阅读更舒适更环保更智能

小米YU7 GT高性能纯电轿跑SUV：浙赛自动驾驶圈速新纪录1分49秒434诞生

小米YU7 GT自动驾驶创佳绩！浙赛纪录诞生，还达成纽北首个自动驾驶圈速纪录

热门推荐

中际旭创们，被华尔街玩成了AI刮刮乐

卖300元跑鞋的“小李宁”必迈，也想做凯乐石

AI眼镜赛道全面起势，离“非戴不可”还有多远？

沈阳至广州汽车托运如何选？看资质运力服务口碑，百联运车成靠谱之选

华为智驾高阶功能包价格上浮同步升级服务权益引行业关注

雷军谈小米汽车：以“笨功夫”打磨细节，三年测170余款车聚焦用户体验

雷军谈小米汽车：三年170款车测试，以用户体验开启行业新赛道

雷军谈小米汽车：三年测170余款车型，“笨功夫”打磨极致用户体验

小米YU7“深海蓝”配色引热议，雷军：若喜欢可考虑复活该颜色选项

雷军谈小米汽车：以长期主义深耕研发，“笨功夫”打磨极致用户体验

雷军谈小米汽车研发：三年测170余款车，以“笨功夫”平衡技术需求与用户体验

墨水屏护眼新体验，科大讯飞阅读器：让阅读更舒适更环保更智能

科大讯飞星火智慧座舱2.0发布，汽车业务毛利率高于传统业务引关注

小米iQOO测试原生防窥屏引热议，公共场景隐私防护或迎升级，值不值得标配？

2026年新风空调怎么选？深度测评揭晓四大热门机型真实实力