当前位置: 首页 » 资讯 » 新科技 » 正文

告别昂贵账单,Token直降68%,多智能体动态协作编程来了

IP属地 中国·北京 机器之心Pro 时间:2026-04-07 14:19:46



本文的主要作者来自上海交通大学自动化与感知学院 i-WiN 中心团队,团队负责人是上海交通大学讲席教授关新平。本文的通讯作者为 i-WiN 中心陈彩莲教授和关新平教授,指导老师还包括中心的许齐敏副研究员、徐磊和张延洲助理研究员。本文的第一作者为上海交通大学博士生王思宇,研究方向涉及多模态大模型、CAD 生成、多智能体、Agentic RL 等。

在当下 Vibe Coding 火热的背景下,软件开发正迅速从 “人写代码” 转向 “人指挥智能体写代码”。以 Claude Code、OpenClaw 为代表的系统,让智能体能够自主完成编码、调试乃至完整任务流程。然而,面对系统级开发或竞赛级算法等复杂问题,单一模型的能力边界依然明显,多智能体协作逐渐成为主流范式

但现有方法大多仍停留在两种典型路径。一类如 Claude Code 的Agent Teams,通过并行调用多个模型来提升能力上限,但也带来了极高的 Token 成本;另一类则以当下热门的 OpenClaw 为代表,通过技能组合与流程编排实现多智能体管理,在工程上更可控。

然而,这类方法的协作结构大多仍依赖预定义规则或静态流程,本质上解决的是 “如何组织调用”,而非 “如何根据任务动态调整协作方式”。这就像不论修自行车还是造火箭,都派同一个十人专家组开三天会,导致智能体冗余通讯与大量的 Token 消耗,最终给用户带来了极高的自主编程成本

上海交通大学 i-WiN 团队最新提出多智能体框架AgentConductor,通过引入一个经过强化学习训练后的3B 参数指挥智能体,从根本上解决了这个问题。它会先评估任务难度,并生成一张以 YAML 表示的交互拓扑图:简单任务使用轻量团队,复杂任务则使用更复杂的交互图,实现能力与成本的自适应匹配。



图 1.(a) 拓扑结构的 YAML 表示与实际图结构的映射;(b) AgentConductor 拓扑生成与演化过程展示

更关键的是,AgentConductor 并非一次性规划:当生成代码运行失败时,指挥智能体会根据环境反馈的错误信息,结合记忆中的历史轨迹,对拓扑进行端到端重新生成,从而探索新的协作形式。实验结果表明,该方法在显著提升编码准确率(+14.6%)的同时,将 Token 成本降低了 68%。这说明真正高效的 AI 编程团队需要的是一种面向任务、可随执行反馈动态演化的协作结构,而非僵化的一刀切工作流。相关论文已经公开,代码将于近期开源。



论文名称:AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation论文链接:https://arxiv.org/abs/2602.17100

社区影响力

图 2 展示了 AgentConductor 工作在国际 AI 社区 (X, 前身 Twitter) 引发的广泛关注与认可。这项工作被知名 AI 分享博主 DAIR.AI 当日置顶宣传并评为 2026 年 2 月 23 日–3 月 1 日 Top AI Papers,并获得新锐 AI 科技博主 Rohan Paul 对 i-WiN 团队和论文的高度评价。



图 2.AgentConductor 得到 DAIR.AI 与 Rohan Paul 等账号推荐

核心特色与方法介绍

1. 基于 YAML 的新型多智能体交互图结构

相比传统多智能体拓扑,我们在表示形式与交互机制两个层面进行了设计与优化。

1.1 表示形式

传统方法多采用连接矩阵等数学形式来描述交互图,不仅可读性差,也难以直接编辑与校验,更无法由大模型端到端生成;近期工作尝试使用自然语言描述,但存在拓扑不严格、难以结构化约束等问题。我们使用 YAML 结构化表示交互图 (图 1 (a)),使其既具备可读性,又支持程序化校验与约束,并可由 LLM 直接生成。这种形式在设计上与当前流行的Skill 配置文件具有一致性,便于理解与落地。



图 3. 本文交互拓扑结构与传统方法的对比

1.2 交互形式

如图 3 所示,传统链式、树状拓扑分别限制并行性、通信范围或连接灵活性,而全连接结构又过于复杂。我们融合多种拓扑优势,支持层内并行和跨层通讯且每个智能体可任意链接之前的历史节点,在提升表达能力的同时避免不必要的通信开销

2. 训练范式

2.1 SFT + GRPO 的两阶段训练范式

AgentConductor 采用两阶段训练策略,只训练一个指挥智能体:

监督微调(SFT):基于 GPT-4o 生成的 4,500 个高质量拓扑样本(覆盖三档难度),赋予基础模型拓扑先验;

基于 GRPO 的多轮端到端 Agentic 强化学习训练:将环境反馈的代码报错和多轮的拓扑文本一起作为轨迹 (Trajectory) 来用于智能体的强化学习训练,基于 GRPO 算法优化模型的拓扑生成策略以最大化复合奖励,最终实现低 Token 成本的高质量代码生成。



图 4. AgentConductor 的总体框架

2.2 拓扑密度评估函数

为实现任务自适应,我们将问题分成三档难度,并根据从 Token 成本到拓扑密度的形式化映射,提出了拓扑密度评估函数并作为奖励函数一部分。综合刻画节点数、边密度与图深度对通信成本的影响。

我们在论文中证明,多智能体系统的平均通信成本可形式化为:



其中 d 为图深度, m 为提示词最大长度。相比之下,传统方法大多简单的通过矩阵的秩来衡量交互密度,丢失了多智能体交互的数学含义

实验结果展示

我们在三个竞赛级(APPS, LiveCodeBench, CodeContests)与两个基础代码数据集(Humaneval, MBPP)上评估 AgentConductor(基于 Qwen-2.5-3B-Instruct):



表 1. AgentConductor 的 pass@1 准确率对比



表 2. AgentConductor 在性能、成本及平均拓扑密度方面的比较结果

表 1 说明,AgentConductor 以仅 3B 参数量,在 APPS 上显著超越最强基线,同时减少了最多 68% 的 completion token 消耗,并实现最高拓扑稀疏度。更重要的是,系统展现出细粒度难度适配能力:在 easy 任务上使用极简拓扑(平均 3–4 节点),在 hard 任务上自动扩展至 8–10 节点,而多数基线无论难度均维持固定密度。(* 更多结果详见论文)

结语:多智能体系统正在学会组织自己

过去,多智能体系统常被视为“堆人力”的暴力解法:越多AI越好。但AgentConductor 证明,智能协作的关键不在于数量,更在于结构的适应性。它标志着多智能体研究从“静态工作流”迈向“动态生态系统”。 AgentConductor 不仅是一项工程优化,更代表了一种新范式:将多智能体协作视为可学习、可演化的结构化决策过程。 通过将任务难度、执行反馈与通信成本统一纳入强化学习框架,我们实现了准确率与效率的协同提升。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。