当前位置：首页 » 资讯 » 新科技 » 正文

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

IP属地中国·北京 机器之心Pro 时间：2025-10-22 20:16:35

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。
GRPO 的核心思路很简单却强大：
对同一个问题，同时生成多条解答路径（rollout）给这些路径打分，比较组内优劣再根据优势信号来更新模型参数，让模型越来越偏好高质量解法
这种「多路径并行 + 组内优势」的机制，虽然比传统 PPO 等方法更加简洁，但仍然需要优化模型参数，太贵了！
在 32B 量级的模型上训练一次 RL，就可能要花掉上万美元如果是 600B 级别的超大模型，成本和工程难度更是上天
这让 GRPO 虽然强大，却几乎只能由巨头来玩，中小团队和个人开发者根本「玩不起」。
能不能不改模型参数，也来跑一遍 GRPO？
腾讯优图的一篇最新论文就提出了一个非常有意思的答案：既然更新参数这么贵，那就不更新参数，直接把 GRPO 的「学习过程」搬进上下文空间！

论文标题：Training-Free Group Relative Policy OptimizationarXiv 链接：https://arxiv.org/abs/2510.08191GitHub 地址：
https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO
Training-Free GRPO 是把 GRPO 训练的整个范式迁移到了上下文学习之中：

训练集上多轮迭代学习，然后在独立的测试集上验证每轮中，对同一道题目并行生成多条解答（Rollout）对比组内不同解法的差异，提取文本型组内优势（Semantic Group Advantage），对齐 GRPO 里的数值型组内优势根据这些文本优势优化一个文本型 LoRA，对齐 GRPO 里的参数型 LoRA
举个例子，对于训练集里这道数学几何题，模型会生成多个不同的解答路径（Rollout），可能会出现不同的解题路径，有的做对了有的做错了。

随后，模型总结不同解法的过程与正确性，从而比较同一组内的不同解答。这个过程自然提炼出文本型组内优势：总结出有的做法为什么对，有的做法为什么错。比如例子里：
错误的解法不仅设错方向，还没有做条件约束检查成功的解法则正确了设定坐标方向，也系统化验证了所有条件
在一个迭代里，得到每道题的文本型组内优势后，模型就把当前批次的优势都更新文本型 LoRA 里，也就是对经验库进行增删改，沉淀学习到的经验。
实验效果
在数学推理上，仅用100 个训练样本，花费约 8-18 美元，就能在已经足够强大的 671B 模型上继续提升性能。
无论是否采用代码工具（CI，code interpreter）帮助解题，在 AIME 榜单上的 Mean@32 指标都能实现提升。

令人惊喜的是，在三个轮次中，训练集和测试集的平均工具调用次数均有所减少。这表明 Training-Free GRPO 不仅能够鼓励正确的推理和行动，还能教会代理找捷径，更高效明智地使用工具。

而在网页搜索场景中，Training-Free GRPO 同样无需更新模型参数，即可在 DeepSeek-V3.1-Terminus 强悍水平之上，实现了 4.6% 的 Pass@1 显著提升。

为什么需要 Training-Free GRPO？

保留 GRPO 的强化学习优势
多路径探索、group advantage、多轮迭代、完全独立的训练与测试集……这些 GRPO 的精华一项不少，全部在上下文层面重现了出来。
成本暴降
不用训练模型参数，仅需少量数据，并且全程只靠 API 随用随付！

只需 8～18 美元以及 100 条训练数据，就能在 671B LLM 上跑完多轮的强化学习训练！远远低于 32B 模型的训练成本。
泛化更好
与 Self-Refine 这类就地改写不同，Training-Free GRPO 是在独立数据集上多轮迭代训练的，对测试集里的 Out-of-Domain (OOD) 数据都有显著提升。
并且，参数微调后的 32B 级别模型往往只能胜任特定窄域任务，可能需要多个专用模型来覆盖完整业务需求，显著增加了系统复杂度和维护成本。而 Training-Free GRPO 只需要一个统一的模型和 API 就可以泛化到不同的场景！
小结：RL 不一定非得有梯度
过去我们默认，强化学习就意味着参数更新。虽然前期有一些上下文空间优化的探索如 Self-Refine、Reflexion、TextGrad 等，但 Training-Free GRPO 与他们不同，完全对齐了参数空间 RL 训练的流程和细节：
把 GRPO 的「独立训练集 + 多轮迭代 + 并行 Rollout + 组内优势」这套 RL 训练范式，整体迁移到上下文空间，在不训练模型的情况下，也能获得强化学习效果。这让超大模型的 RL 优化变得廉价、灵活、可持续，也给每个开发者的小业务提供了用得起的新方案。
本文方法已开源，欢迎 Star 和试用！
预告：Training-Free GRPO 将作为一个新功能集成到 Youtu-Agent 框架中，帮助开发者们进一步提升各种自定义场景的效果。
注：成本计算基于 DeepSeek API 官方定价，实际可能因使用情况而有所波动。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

苹果iPad 12和iPad Air 8整装待发：升级到A18和M4芯片

一场不能喊“卡”的晚会刚刚上演：机器人唱着“咱们工人有力量”谈起了恋爱

古尔曼：苹果iOS 26.4首个测试版最快2月23日当周发布

古尔曼爆料苹果iPhone 17e即将发布

从平价MacBook到iPhone 17e苹果多款春季新品攻势揭幕

机器人“卷”到魔术界了！全球首个大型机器人晚会上演人体悬浮术

全站最新

苹果iPad 12和iPad Air 8整装待发：升级到A18和M4芯片

一场不能喊“卡”的晚会刚刚上演：机器人唱着“咱们工人有力量”谈起了恋爱

古尔曼：苹果iOS 26.4首个测试版最快2月23日当周发布

古尔曼爆料苹果iPhone 17e即将发布

热门推荐

阿里千问发文求放过！热度太高有点儿堵免单卡有效期至28号

苹果iPad 12和iPad Air 8整装待发：升级到A18和M4芯片

过年快递停运？多家快递公司回应: 春节不打烊

崔东树：1月新车平均降价3.7万元

机器人“卷”到魔术界了！全球首个大型机器人晚会上演人体悬浮术

一场不能喊“卡”的晚会刚刚上演：机器人唱着“咱们工人有力量”谈起了恋爱

智元《机器人奇妙夜》晚会实现多项全球首创

古尔曼：苹果iOS 26.4首个测试版最快2月23日当周发布

古尔曼爆料苹果iPhone 17e即将发布

从平价MacBook到iPhone 17e苹果多款春季新品攻势揭幕

机器人“卷”到魔术界了！全球首个大型机器人晚会上演人体悬浮术

600元就能买的专利专门利谁？

美联储降息，再生变！比特币剧烈波动！

AYANEO NEXT 2旗舰Windows掌机发布，12999元起

比特币，巨震！近9万人爆仓