当前位置：首页 » 资讯 » 新科技 » 正文

告别昂贵账单，Token直降68%，多智能体动态协作编程来了

IP属地中国·北京 机器之心Pro 时间：2026-04-07 14:19:46

本文的主要作者来自上海交通大学自动化与感知学院 i-WiN 中心团队，团队负责人是上海交通大学讲席教授关新平。本文的通讯作者为 i-WiN 中心陈彩莲教授和关新平教授，指导老师还包括中心的许齐敏副研究员、徐磊和张延洲助理研究员。本文的第一作者为上海交通大学博士生王思宇，研究方向涉及多模态大模型、CAD 生成、多智能体、Agentic RL 等。
在当下 Vibe Coding 火热的背景下，软件开发正迅速从 “人写代码” 转向 “人指挥智能体写代码”。以 Claude Code、OpenClaw 为代表的系统，让智能体能够自主完成编码、调试乃至完整任务流程。然而，面对系统级开发或竞赛级算法等复杂问题，单一模型的能力边界依然明显，多智能体协作逐渐成为主流范式
但现有方法大多仍停留在两种典型路径。一类如 Claude Code 的Agent Teams，通过并行调用多个模型来提升能力上限，但也带来了极高的 Token 成本；另一类则以当下热门的 OpenClaw 为代表，通过技能组合与流程编排实现多智能体管理，在工程上更可控。
然而，这类方法的协作结构大多仍依赖预定义规则或静态流程，本质上解决的是 “如何组织调用”，而非 “如何根据任务动态调整协作方式”。这就像不论修自行车还是造火箭，都派同一个十人专家组开三天会，导致智能体冗余通讯与大量的 Token 消耗，最终给用户带来了极高的自主编程成本
上海交通大学 i-WiN 团队最新提出多智能体框架AgentConductor，通过引入一个经过强化学习训练后的3B 参数指挥智能体，从根本上解决了这个问题。它会先评估任务难度，并生成一张以 YAML 表示的交互拓扑图：简单任务使用轻量团队，复杂任务则使用更复杂的交互图，实现能力与成本的自适应匹配。

图 1.(a) 拓扑结构的 YAML 表示与实际图结构的映射；(b) AgentConductor 拓扑生成与演化过程展示
更关键的是，AgentConductor 并非一次性规划：当生成代码运行失败时，指挥智能体会根据环境反馈的错误信息，结合记忆中的历史轨迹，对拓扑进行端到端重新生成，从而探索新的协作形式。实验结果表明，该方法在显著提升编码准确率（+14.6%）的同时，将 Token 成本降低了 68%。这说明真正高效的 AI 编程团队需要的是一种面向任务、可随执行反馈动态演化的协作结构，而非僵化的一刀切工作流。相关论文已经公开，代码将于近期开源。

论文名称：AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation论文链接：https://arxiv.org/abs/2602.17100
社区影响力
图 2 展示了 AgentConductor 工作在国际 AI 社区 (X, 前身 Twitter) 引发的广泛关注与认可。这项工作被知名 AI 分享博主 DAIR.AI 当日置顶宣传并评为 2026 年 2 月 23 日–3 月 1 日 Top AI Papers，并获得新锐 AI 科技博主 Rohan Paul 对 i-WiN 团队和论文的高度评价。

图 2.AgentConductor 得到 DAIR.AI 与 Rohan Paul 等账号推荐
核心特色与方法介绍
1. 基于 YAML 的新型多智能体交互图结构
相比传统多智能体拓扑，我们在表示形式与交互机制两个层面进行了设计与优化。
1.1 表示形式
传统方法多采用连接矩阵等数学形式来描述交互图，不仅可读性差，也难以直接编辑与校验，更无法由大模型端到端生成；近期工作尝试使用自然语言描述，但存在拓扑不严格、难以结构化约束等问题。我们使用 YAML 结构化表示交互图 (图 1 (a))，使其既具备可读性，又支持程序化校验与约束，并可由 LLM 直接生成。这种形式在设计上与当前流行的Skill 配置文件具有一致性，便于理解与落地。

图 3. 本文交互拓扑结构与传统方法的对比
1.2 交互形式
如图 3 所示，传统链式、树状拓扑分别限制并行性、通信范围或连接灵活性，而全连接结构又过于复杂。我们融合多种拓扑优势，支持层内并行和跨层通讯且每个智能体可任意链接之前的历史节点，在提升表达能力的同时避免不必要的通信开销
2. 训练范式
2.1 SFT + GRPO 的两阶段训练范式
AgentConductor 采用两阶段训练策略，只训练一个指挥智能体：
监督微调（SFT）：基于 GPT-4o 生成的 4,500 个高质量拓扑样本（覆盖三档难度），赋予基础模型拓扑先验；
基于 GRPO 的多轮端到端 Agentic 强化学习训练：将环境反馈的代码报错和多轮的拓扑文本一起作为轨迹 (Trajectory) 来用于智能体的强化学习训练，基于 GRPO 算法优化模型的拓扑生成策略以最大化复合奖励，最终实现低 Token 成本的高质量代码生成。

图 4. AgentConductor 的总体框架
2.2 拓扑密度评估函数
为实现任务自适应，我们将问题分成三档难度，并根据从 Token 成本到拓扑密度的形式化映射，提出了拓扑密度评估函数并作为奖励函数一部分。综合刻画节点数、边密度与图深度对通信成本的影响。
我们在论文中证明，多智能体系统的平均通信成本可形式化为：

其中 d 为图深度， m 为提示词最大长度。相比之下，传统方法大多简单的通过矩阵的秩来衡量交互密度，丢失了多智能体交互的数学含义
实验结果展示
我们在三个竞赛级（APPS, LiveCodeBench, CodeContests）与两个基础代码数据集（Humaneval, MBPP）上评估 AgentConductor（基于 Qwen-2.5-3B-Instruct）：

表 1. AgentConductor 的 pass@1 准确率对比

表 2. AgentConductor 在性能、成本及平均拓扑密度方面的比较结果
表 1 说明，AgentConductor 以仅 3B 参数量，在 APPS 上显著超越最强基线，同时减少了最多 68% 的 completion token 消耗，并实现最高拓扑稀疏度。更重要的是，系统展现出细粒度难度适配能力：在 easy 任务上使用极简拓扑（平均 3–4 节点），在 hard 任务上自动扩展至 8–10 节点，而多数基线无论难度均维持固定密度。（* 更多结果详见论文）
结语：多智能体系统正在学会组织自己
过去，多智能体系统常被视为“堆人力”的暴力解法：越多AI越好。但AgentConductor 证明，智能协作的关键不在于数量，更在于结构的适应性。它标志着多智能体研究从“静态工作流”迈向“动态生态系统”。 AgentConductor 不仅是一项工程优化，更代表了一种新范式：将多智能体协作视为可学习、可演化的结构化决策过程。通过将任务难度、执行反馈与通信成本统一纳入强化学习框架，我们实现了准确率与效率的协同提升。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

【中泰传媒】康雅雯：AI技术迭代与商业化加速，国产大模型全球化竞争力凸显

豆包大模型日均Token使用量超120万亿，Seedance 2.0 API开启公测

Anthropic宣布年化营收超300亿并确认将与博通和谷歌深度合作

从“联”到“智”，聚“独”成“众”：华为以融合之力重构园区网络新基座

龙虾+企业微信办公热企业微信全面拥抱AI！企业能做什么该怎么做

厦门小程序开发，我的实践复盘

全站最新

【中泰传媒】康雅雯：AI技术迭代与商业化加速，国产大模型全球化竞争力凸显

豆包大模型日均Token使用量超120万亿，Seedance 2.0 API开启公测

Anthropic宣布年化营收超300亿并确认将与博通和谷歌深度合作

从“联”到“智”，聚“独”成“众”：华为以融合之力重构园区网络新基座

热门推荐

产业链人士：苹果首款折叠屏手机项目正常推进，产品下半年发布

黎万强、洪锋退股小米科技

赛力斯公布防撞控制专利

宇树科技移动机器人专利获授权

第一个猝死的AI巨头出现了

“贪杯”的名仁苏打水，下不了酒桌？

《纽约客》调查：超百名内部人士指控 OpenAI CEO 奥尔特曼操纵权力与道德缺失

国产大模型 MiniMax 2.7 确认本周开源：Token 成本将进一步下探

报道称Mistral AI CEO 与三星高层会晤，探讨半导体合作前景

Sora 为何突然“熄火”？奥特曼首谈停用内幕：算力缺口大到无法想象

英国联合联俱乐部签约并“售出”全球首批AI球员，引发职业足球去留争议

首个单日破万亿！阿里千问 3.6 Plus 登顶 OpenRouter 全球大模型调用榜

【中泰传媒】康雅雯：AI技术迭代与商业化加速，国产大模型全球化竞争力凸显

豆包大模型日均Token使用量超120万亿，Seedance 2.0 API开启公测

Anthropic宣布年化营收超300亿并确认将与博通和谷歌深度合作