当前位置：首页 » 资讯 » 新科技 » 正文

模仿学习新范式，Chain-of-Action：轨迹自回归实现动作推理

IP属地中国·北京 编辑：柳晴雪机器之心Pro 时间：2025-07-16 12:25:02

论文标题：Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation主页链接：https://chain-of-action.github.io/文章链接：https://arxiv.org/pdf/2506.09990代码链接：https://github.com/ByteDance-Seed/Chain-of-Action
模仿学习的困境
具身智能（Embodied AI）作为人工智能领域的前沿方向，旨在赋予机器人或智能体在物理世界中感知、决策和行动的能力。近年来，尽管视觉 - 语言 - 动作模型（Vision Language Action, VLA）已经取得了诸多进展，但具身智能领域尚未迎来「GPT 时刻」。越来越多的研究人员开始相信，仅仅增加模型规模和数据量似乎不足以创造出通用操作模型，如果我们想要充分释放现有数据的潜力，就需要找到更有效的机器人操作建模方法。
来自字节跳动 Seed & 阿德莱德大学的研究者追根溯源，对模仿学习的基本范式进行了反思，发现现有建模思路或许存在缺陷：经典方法如 ACT、Diffusion Policy（DP）都遵循「前向预测」（forward-prediction）范式。而然这种方式不可避免地存在较大的复合误差（compounding error）。
在该范式下，策略通常被优化为基于当前观察预测短期的下一步动作，而非确保最终能够成功完成整个任务。虽然引入了动作分块（action chunking）等策略来缓解复合误差，但无法解决其固有的「短视性」问题。
基于该局限，研究者提出了「动作链」（Chain-of-Action, CoA）—— 一种基于轨迹自回归的机器人操作策略。与经典范式区分，CoA 并不直接由观察映射到执行动作，而是由从最终位置反向自回归的生成轨迹点，推理出可执行的动作。研究团队初步发现，仅仅通过修改建模方式，CoA 在与 ACT 保持相同的基本结构下，空间泛化能力显著提升。这种建模方式为具身操作策略的建模提供了新的思路。
动作链：基于轨迹自回归建模的
机器人操作策略
核心思想：受到思维链（Chain-of-Thought）的启发，CoA 并不直接由观察映射到执行动作，而是在动作层面进行迭代式的推理。具体来说，CoA 逆向的生成针对目标任务的完整轨迹，这个生成过程统一在一个自回归网络下。自回归过程从「关键帧动作」（keyframe action）开始，迭代地生成一连串完整的动作轨迹，直至当前的机器人夹爪的位置。
全局到局部一致性：这种「从后往前」的生成方式，为整个动作序列提供了的「全局 - 局部」（global-to-local）结构性约束。因为每个后续生成的动作都以代表最终目标的「关键帧」为条件，所以最后执行的动作将会被最终目标所「锚定」，空间泛化能力显著得到增强。
统一的自回归框架：CoA 将关键帧的识别和轨迹的生成统一在单一的自回归模型中，实现了端到端的训练和高效的闭环执行，并保持了可扩展（scalable）的潜力。

关键设计
为了实现轨迹自回归的想法，CoA 引入了四个关键设计：
连续动作表征（Continuous Action Representation）：离散化的动作表征会引入量化误差，为保证轨迹的精细度，CoA 采用了连续的动作表征并引入了「潜在一致性损失」（Latent consistency loss）。
动态停止机制（Dynamic Stopping）：在连续动作空间中，没有传统的中止符（EOS token）来指示序列的结束。因此，CoA 设计了一种基于距离的动态停止机制，实现可变长度（variable length）的轨迹预测。
反向时间集成（Reverse Temporal Ensemble）：传统的时序集成策略基于前向时间假设，不适用于 CoA 的反向生成模式。CoA 通过反向时序集成，进一步提高预测的稳定性。
多词元预测（Multi-token Prediction, MTP）：动作局部依赖关系的建模可作为「全局 - 局部」一致性的补充。此设计仅在训练阶段作为正则化手段使用，在推理时移除，保证了效率。

实验验证
模拟环境测试
大幅超越基线：在涵盖 60 个任务的 RLBench 大规模拟基准测试中，CoA 的平均成功率达到了 55.2%，显著优于 ACT（38.9%）和 DP（32.6%）。相较于 ACT，CoA 在 81.7% 的任务中取得了更高的成功率，平均提升了 16.3%。相较于 DP，CoA 在 80.0% 的任务上表现更优，平均提升为 23.2%。

相关性分析：所有方法的成功率都随着物体空间分布方差的增大而下降，但 CoA 的下降趋势更为平缓，且其性能优势在高方差（更困难）的任务中更为明显。

空间泛化能力分析：研究者对泛化性进行了更细致的观察。以按按钮任务为案例，分别测试了「内插」（in-distribution）和「外推」（out-of-distribution）情况下各个模型的表现，结果显示，CoA 在外推场景下成功率约为内插情况下的一半，但对于 ACT 和 DP，外推任务几乎不能完成，这一定程度揭示了两种建模范式在空间泛化表现上的根本差异。

真实世界实验
研究者在一台 Fetch 机器人上，围绕 8 项厨房任务进行了部署和测试。观察来自单个 RGB 摄像头，策略以 10Hz 的频率运行，每个任务测试 10 次。实验结果显示 CoA 取得了 61.3% 的平均成功率，ACT 成功率为 46.3%，DP 的成功率 36.3%。这验证了 CoA 建模范式在真实世界中的可用性。

结论与展望
Chain-of-Action 提出了一种新颖的模仿学习范式，其核心是轨迹自回归建模。通过从一个代表任务目标的「关键帧」开始，逆向生成动作序列，该方法为轨迹施加了一个强大的「全局 - 局部」结构约束，从而有效解决累计误差问题，提升机器人操作泛化性。全面的实验结果证明，在没有更多数据和增大模型规模的情况下，其在空间泛化能力相比传统范式取得显著提升。这说明一个合理的建模范式可以有效的释放现有数据的潜力。CoA 有望为未来一代的 VLA 模型提供新的建模思路。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

墨迹天气品牌标识焕新，发布航空气象SaaS新品AeroMetis

脱下皮衣、穿上唐装，黄仁勋中文演讲首秀

阿联酋一口气定了350架“空中的士”，时的科技斩获70亿出海大单

这个周末就到松山湖体验AI黑科技，看人工智能科普展

黄仁勋直夸“中国电动车绝了”：感叹在美国买不到小米汽车

消息称华为将推麒麟 9 平台 8.8 英寸 / 14.2 英寸 OLED 旗舰平板

全站最新

再次亮相！比亚迪携三款车型登陆2025古德伍德速度节

首发实录 | 今天，黄仁勋90分钟小范围交流，都谈了什么？

一场关于速度的文明对话：方程豹首次亮相英国古德伍德速度节

特斯拉大六座Model Y L将于今年秋季上市交付，售价或在40万元左右

热门推荐

AIC持续扩容，邮储银行拟出资100亿入局，已有三家股份行获批筹建

墨迹天气品牌标识焕新，发布航空气象SaaS新品AeroMetis

脱下皮衣、穿上唐装，黄仁勋中文演讲首秀

你喊“来点emo的歌”，TA会立刻响应！快来体验PC端的开口即播吧

阿联酋一口气定了350架“空中的士”，时的科技斩获70亿出海大单

这个周末就到松山湖体验AI黑科技，看人工智能科普展

国家安全部：警惕AI造假：虚假信息、隐私泄露和意识形态挑拨风险

黄仁勋直夸“中国电动车绝了”：感叹在美国买不到小米汽车

消息称华为将推麒麟 9 平台 8.8 英寸 / 14.2 英寸 OLED 旗舰平板

现款 10.78 万元起，2025 款吉利银河 E5 将于 7 月 24 日上市

蔚来世界模型 NWM 有问必答第 1 期发布

Bug修了但没修好：微软承认尚未解决Windows防火墙问题

“传递能量方块”开启！未来一个月机器人将在北京街头“快闪”

抢不到labubu的人，用3D打印版当平替

升级之处超过110 项，零跑全新C11愈发强大