当前位置：首页 » 资讯 » 新科技 » 正文

LaPha：你的Agent轨迹其实嵌入在一个Poincaré球？

IP属地中国·北京 机器之心Pro 时间：2026-03-18 14:26:30

本文第一作者夏翰宸为上海科学智能研究院强化学习研究员，硕士毕业于上海交通大学，研究方向为 Agentic RL 和多模态扩散语言模型。本文的通讯作者是复旦大学朱思语教授。
在经典强化学习问题中，动作空间通常是离散且有限的。例如在围棋中，一步棋就是一次行动；在机器人控制或视觉 - 语言 - 行动（VLA）模型中，动作往往来自一个有限的控制指令集合。
这样的设置使得搜索算法（如 MCTS）能够在一个结构清晰的决策空间中展开，每个分支都对应一个真实且不同的决策。

但语言模型的情况截然不同。
如果把token 序列直接视为动作，那么语言模型的动作空间几乎是无限的。同一个语义决策，可以被大量不同的字符串表达。
著名语言学家、哲学家维特根斯坦在《哲学研究》的开篇提出了一个著名的例子，用来说明语言与行动之间的关系：在一个建筑工地上，一名工人只需要喊出「Slab!」（石板），他的同伴就会把石板递过来。在特定语境中，一句话的意义并不取决于它的字面形式，而取决于它在「语境」（context）中的功能。
对 LLM Agent 来说，同一个语义动作，可以被不同的字符串实现：不同的措辞、格式变体、tool-call 写法，看起来是不同分支，本质上却在做同一件事。这意味着，把 token sequence 直接当成「策略」，会系统性地高估语言搜索树的 branching factor。模型表面上在「广泛探索」，实际上却可能只是在不同 paraphrase 之间来回打转。
语言推理的问题，不只是搜索树太大，而是搜索树里有大量「看起来不同、其实等价」的分支。
如果再叠加 RLVR 的稀疏奖励问题，情况会更糟。很多任务只有极少量终点路径能被规则验证为正确，而且验证信号往往只在最后一步出现。于是，一边是搜索预算被近重复分支大量消耗，另一边是中间过程缺乏稳定反馈，credit assignment 也就变得异常脆弱。
围绕「对于 LLM 来说，何为 policy」这个本质问题，上海科学智能研究院联合复旦大学提出 LaPha（Latent Poincaré Shaping for Agentic Reinforcement Learning）：把智能体的行为树映射到 LLM 自身的潜空间，用几何距离定义势函数，构造密集的过程奖励，并训练类 AlphaZero 的 LLM Agent。

论文链接：https://arxiv.org/pdf/2602.09375
先看最硬的结论
LaPha 的亮点可以用三句话概括：
在隐空间分配公平、密集的过程奖励；在隐空间进行策略剪枝；在隐空间训练 Value Network，以极低的开销换取大幅度 test-time scaling；
效果直接反映在基准上：

Qwen2.5-Math-1.5B on MATH-500 / Gaokao'23 (En)：66.0% →88.2%/ 46.5% →67.7%；Qwen2.5-Math-7B on AIME'24/25：10.0% →60.0%/ 16.7% →53.3%。
轻量改造的核心：把「树结构」搬进负曲率几何
LaPha 的做法很直接：对每个搜索节点，把 LLM 的最后一个隐层做平均池化，得到一个状态向量；再以 prompt 的隐向量为原点做「平移中心化」，最后把所有状态的隐向量映射到 Poincaré 球内。此后搜索、奖励、价值、剪枝都在同一潜空间上完成。
为什么是双曲（hyperbolic）空间？
树的分支数随深度指数增长，而负曲率空间的有效容量也随半径指数扩张，树节点数量随深度膨胀，欧式空间出现「粘连」，而双曲空间上的节点因为空间膨胀，节点仍能够相互区分；RMSNorm 后的隐层分布在高维超球面，球面向量不具备单调性，无法刻画「进展」；而 Poincaré 球上可以观察到清晰的从根节点向边界「生长」的 Agent 行为树。
用几何势函数，把稀疏验证奖励「变密」

上图可视化了 LaPha-Math-1.5B 搜索正确答案的过程，Agent 的「动作」产生了一棵自「问题」向边界生长的搜索树。LaPha 主要通过以下几步将「终点对错」转成每一步都可以学习的过程信号。
双曲测地距离（Poincaré 球的距离）

构造势函数（取值在 [0,1]），离 root 越远、离最近「正确解」越近，势能越高

沿边的过程奖励就是势能差分。这一步很关键：用势能差分做奖励，能在理论上保持「最优策略不变」的性质，同时把稀疏终点信号变成密集的中间奖励。

轻量 value head：把「几何进展」学成一个便宜的排序器
光有过程奖励还不够 —— 推理端看不到「正确叶子集合」，怎么办？

LaPha 在同一份 pooled hidden state 上挂了一个非常轻的 value head（线性 + sigmoid），去拟合上面势函数定义出来的目标。训练完成后，value head 直接作为 MCTS 的启发式信号，在 test-time 引导选择与扩展。
value head 形式

value loss（用势函数做监督）

训练中，self-guided Pass@1 逐渐超过叶子平均正确率，说明 value head 学到了独立于 policy head 的额外信息。

潜空间剪枝
语言动作空间的最大浪费，是 MCTS 反复扩展一堆几乎等价的表达。
LaPha 在潜空间里按双曲距离对非终止节点聚类，对每个簇禁用一部分近重复节点，再重建 frontier 继续搜。这样能显著减少「语义坍缩」，提升覆盖率，让同样的模拟预算探索到更多真正不同的思路。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

吴泳铭亲自下场！阿里AI彻底整编，“悟空”打响B端攻坚战

马斯克回应xAI落后：2026年底追平头部AI企业，2029年将遥遥领先

全网炸锅！大模型惨遭“投毒”，有多可怕？

腾讯云正式成为OpenClaw社区赞助商共推AI智能体生态高质量发展

“悟空”出世！阿里成立ATH并发布企业级AI原生工作平台

英伟达黄仁勋：“龙虾”OpenClaw绝对是下一个ChatGPT

全站最新

吴泳铭亲自下场！阿里AI彻底整编，“悟空”打响B端攻坚战

马斯克回应xAI落后：2026年底追平头部AI企业，2029年将遥遥领先

全网炸锅！大模型惨遭“投毒”，有多可怕？

腾讯云正式成为OpenClaw社区赞助商共推AI智能体生态高质量发展

热门推荐

BuzzFeed 新 AI 应用 SXSW 遇冷：现场尴尬静默，转型之路再陷阴机

一杯奶茶钱，定制专属AI？灵光“代搓应用”服务成为年轻人副业新选择

吴泳铭亲自下场！阿里AI彻底整编，“悟空”打响B端攻坚战

马斯克回应xAI落后：2026年底追平头部AI企业，2029年将遥遥领先

全网炸锅！大模型惨遭“投毒”，有多可怕？

腾讯云正式成为OpenClaw社区赞助商共推AI智能体生态高质量发展

“悟空”出世！阿里成立ATH并发布企业级AI原生工作平台

英伟达黄仁勋：“龙虾”OpenClaw绝对是下一个ChatGPT

AI当教练，基因定胜负……当科技“入侵”体育，我们到底在和谁比赛？

可灵与Seedance狭路相逢，谁能笑到最后？

伊朗战争，芯片的“黑天鹅”会兑现吗？

中关村论坛亮点前瞻：百余场活动，AI翻译官、机器人齐上岗

英伟达黄仁勋：“龙虾”OpenClaw绝对是下一个ChatGPT

2026梦饷科技流量大会：发布“七新”增长模型，聚焦四大核心方向

官宣中国移动机器人重大突破