当前位置：首页 » 资讯 » 新科技 » 正文

让LLM不再话痨，快手HiPO框架来了

IP属地中国·北京 机器之心Pro 时间：2025-11-03 16:08:38

当用户向大语言模型提出一个简单问题，比如「单词 HiPPO 里有几个字母 P？」，它却正襟危坐，开始生成一段冗长的推理链：「首先，让我们分析 HiPPO 这个词，河马的英文单词为 hippo，河马是一种半水生哺乳动物，这里用户用了大写字母，可能有特殊的含义，对于单词 HiPPO，我们可以将其拆分为 H-i-P-P-O，字母 P 出现在第 3 与第 4 个位置，因此有 2 个字母 P... 让我们简化问题，HiPO 可以拆分为...」
面对这样的「严谨」，用户难免哭笑不得，既浪费了计算资源，也增加了等待时间，甚至更坏的情况是模型被自己冗长的推理链「绕晕了过去」，最终给出了错误的答案，用户只得捶胸顿足地大喊：「这合理吗？」

这种现象，正是当前追求强大推理能力的 LLM 们普遍面临的「过度思考」（Overthinking）困境。
无论是数学计算、代码生成还是逻辑问答，模型似乎习惯了「启动即深思」的模式，即使面对本可直观回答的简单问题，也要展开一番链式思考（Chain-of-Thought, CoT），导致 token 使用量激增、推理延迟变长、部署成本高昂。如何在保持复杂问题解决准确性的同时，避免在简单任务上「空转」、在复杂任务上高效「运转」，成为 LLM 走向实用化的一大关键挑战。
如今，快手 KwaiKAT 团队与南京大学刘佳恒老师 NJU-link 实验室、张煜群教授实验室 ARiSE合作重磅推出HiPO（Hybrid Policy Optimization）框架，为 LLM 装上了智能的「思考开关」。该框架通过创新的混合数据冷启动与混合强化学习奖励系统，使模型能够自主、动态地决策何时该启动详细推理（Think-on），何时该直接给出答案（Think-off）。
这不仅显著提升了推理效率，更在多个核心基准测试上实现了准确率的同步提升，为构建高效、实用的下一代推理大模型提供了解决方案。

论文链接：https://arxiv.org/abs/2509.23967项目链接：https://huggingface.co/Kwaipilot/HiPO-8B
困境之源：LLM 的「思考」代价与「过度思考」顽疾
大语言模型在复杂认知任务上的巨大成功，很大程度上归功于链式思考（CoT）推理范式的引入。让模型像人一样「一步一步想问题」，极大地提升了其在数学、编程、科学问题解决等领域的表现。然而，这套强大的推理机制也带来了「认知惯性」：模型倾向于对所有问题都「一视同仁」地进行深度推理。
效率与成本的矛盾：始终生成冗长的推理轨迹是低效的。它直接转化为极高的 Token 使用量，意味着更慢的响应速度（延迟）和更昂贵的 API 调用或自建推理成本。在追求交互体验和成本控制的真实应用场景中，这成为了一个致命的短板。「过度思考」的普遍性：近期多项研究都明确指出，LLM 存在普遍的过度思考现象。即使是最先进的模型，也常常在简单问题上「小题大做」，生成大量冗余推理步骤，造成了计算资源的巨大浪费。在复杂问题上，模型也常常出现反复冗余思考的现象，导致回答出错。
现有的解决方案试图缓解这一问题，但各有局限：
基于训练的自适应推理：通过强化学习（RL）引入长度惩罚或简洁性奖励，或通过监督微调（SFT）偏好更短的推理。但这类方法信号粗糙，可能因单调的「缩短」激励而损害模型处理难题的能力。外部控制：通过精心设计的提示词或动态指令来限制推理步骤。这种方法灵活但依赖人工设计，难以规模化且泛化能力存疑。事后优化：在推理链生成后进行剪枝或重构。这属于「事后补救」，无法从根源上改变模型的思考模式。
核心问题在于，缺乏一个原则性的机制，来精细地平衡准确性、回答效率之间的权衡，让模型学会「具体问题，具体分析」。
HiPO 破局之道：双轮驱动的「智能思考开关」
HiPO 框架的核心思想是将「是否思考」的决策权交给模型自身，并通过系统性的训练方法，确保其决策的智能性与平衡性。其创新性主要体现在两大核心组件上：
组件一：混合数据冷启动—— 为模型装上「智能思考开关」
要让模型学会选择，首先需要让它见识过「思考」和「不思考」两种模式下的高质量回答是什么样的。HiPO 设计了一套精密的自动化数据构建流程，并使用混合数据进行冷启动。

1.数据收集与分类：研究团队整合了多个高质量的公开及专有数学与代码推理数据集（如 AM-Thinking-v1-Distilled, AceReason-Math, II-Thought-RL, Skywork-OR1-RL-Data），构建了一个高质量的训练语料库。
2.双模式响应生成与优选：对于每个问题，使用一个强大的推理模型（如 DeepSeek-V3）分别生成 N 个「Think-on」（带推理）和 N 个「Think-off」（直接回答）的响应。然后，自动验证所有回答的正确性。
关键优选策略：比较两种模式的通过率（Pass Rate）。如果「Think-on」模式的通过率显著高于「Think-off」，则选择「Think-on」模式；反之则选择「Think-off」。特别巧妙的是，当两种模式通过率相差无几（低于阈值 δ）时，策略会倾向于选择「Think-off」模式。这一设计直接鼓励模型在深度思考不能带来明显收益时，优先选择更简洁的回答，从数据源头注入效率意识。最短正确响应：在获胜的模式下，选择最短的正确响应作为最终样本，进一步强化简洁性。
3.引入模式解释信号：为了强化模型对模式选择的理解，HiPO 还引入了一个辅助解释信号。对于每个优选出的问答对，会使用 DeepSeek-V3 生成一段理由（Justification），解释「为什么这个问题适合（或不适合）进行深度推理」。这为模型提供了宝贵的元认知信号，帮助其将模式选择与问题内在的复杂性对齐。
这套管道最终产出的数据，每条都包含了问题、最终回答、以及关于思考模式的理由。在这些数据上对模型进行冷启动，使得模型初步具有了「智能思考」的能力。
组件二：混合强化学习奖励系统 —— 精细化引导模型的「决策天平」
有了高质量的数据进行「冷启动」（Cold-Start）训练后，HiPO 通过一个设计精巧的混合强化学习（RL）阶段，对模型进行微调，使其决策能力臻于完善。该奖励系统的核心目标是防止模型过度依赖看似更可靠的「Think-on」模式，实现真正的自适应。
1.基础奖励：每个生成的回答会根据其答案正确性（ACC）和格式正确性（FORMAT）获得一个基础奖励分。
2.偏差调整机制 —— 防止「思考」惯性：这是 HiPO 的一个关键创新。由于「Think-on」模式通常更准确，模型在 RL 过程中容易产生偏向，无论问题难易都选择「思考」。为了解决这一问题，HiPO 引入了动态的偏差调整机制。
它会计算「Think-on」模式响应的平均奖励，然后为「Think-off」模式设定一个偏置项（bias_off），该偏置项是「Think-on」平均奖励的一个比例（由 ω 控制，通常设为 0.01）。当「Think-off」模式的性能不显著优于「Think-on」，但差距在一定范围内时，会启动调整，适当提升「Think-off」模式的评估得分。这一机制有效防止了模型通过「无脑」选择冗长推理来获取奖励的投机行为，确保了训练稳定性，并维护了深度与效率之间的 intended balance。
3.混合优势函数 —— 双重监督：HiPO 设计了两个独特的优势（Advantage）函数来提供更精细的指导信号：
评判优势（A_judge）：关注于模式选择的合理性。它结合了「所选模式的全局平均优势」和「当前响应在其模式内的相对质量」，确保模型选择某个思考模式的理由（即之前生成的 Justification）与其实际表现一致。回答优势（A_answer）：聚焦于回答本身的质量。它在同一思考模式内进行局部归一化，鼓励模型在既定模式下生成更好的回答，而不与模式选择的偏好混淆。
最终，这两个优势信号被分别赋予给回答中对应的「理由」部分和「答案」部分的每个令牌，实现令牌级别的精细化优化。整个 RL 过程采用类似 PPO 的算法，在最大化期望奖励的同时，约束策略更新幅度，防止偏离太远。
实验结果：不仅更快，而且更准
HiPO 在基于 Qwen3 系列模型（如 8B 参数版本）的实验中，取得了令人瞩目的成果。在 AIME2024/2025、Humaneval、LiveCodeBench（v6）、MATH-500、GPQA-Diamond 等多个权威基准测试上，与多种基线方法进行了全面对比，并进行了充分的消融实验。

显著提升效率：与仅使用「Think-on」数据训练的模型相比，最终HiPO 模型在平均令牌长度上减少了 30%，思考率（RatioT）降低了 37%。这意味着模型在处理大量问题时，能智能地跳过不必要的推理，直接输出答案，带来了实实在在的成本和延迟收益。同步提升准确率：更令人惊喜的是，HiPO 在实现效率飞跃的同时，平均准确率提升了 6.3%。这证明其自适应机制不仅没有损害性能，反而通过优化决策，让模型在难题上更「专注」地思考，在简单题上更高效地回答，实现了双赢。超越现有方法：实验表明，HiPO 在准确性和效率的综合表现上，优于 AdaptThink、AutoThink 等现有的自适应推理方法。
动态决策分析：研究团队还深入追踪了模型在训练和推理过程中的行为演变。

如上图 (a) 所示，随着 RL 训练的进行，模型激活「Think-on」和「Think-off」的频率差距逐渐缩小，从初期的 89.5% 降至最终的 53.1%，说明模型确实学会了更精细地切换模式。上图 (b) 显示，在不同数据集上，模型的思考模式激活率与任务特性高度相关。在 AIME2024、LiveCodeBench 等需要强推理的任务上，「Think-on」率始终保持在 70% 以上；而在 Humaneval 等相对简单的代码任务上，“Think-on” 率则随训练明显下降，体现了良好的任务适应性。

上图 (a) 和上图 (b) 清晰地展示了 RL 训练过程中以及在不同数据集上，模型输出令牌数量的持续下降趋势，直观反映了 HiPO 在提升效率方面的有效性。
强泛化性：HiPO 的成功不仅在 Qwen3-8B 上得到验证，在 Qwen3-1.7B 和 Qwen3-32B 等不同规模的模型上也展现出一致的性能提升，证明了其方法的普适性。

未来展望：HiPO 如何重塑高效 LLM 生态
HiPO 框架的提出，不仅仅是一项技术突破，更是为 LLM 的发展方向提供了一个重要的思路转变：从一味追求「更强思考」到追求「更智能地思考」。
推动 LLM 实用化落地：对于需要大规模部署 LLM 的应用（如搜索引擎、智能客服、代码助手），HiPO 能直接降低计算成本和响应延迟，使高性能 LLM 服务变得更加「亲民」。为模型轻量化提供新路径：通过让模型学会「停止思考」，可能在保持相当性能的前提下，为模型压缩和蒸馏开辟新的可能性。增强模型的「元认知」能力：HiPO 训练模型对自身认知过程进行监控和决策，这是向具备更高层次智能的 AI 系统迈出的重要一步。
结语
当大语言模型陷入「为思考而思考」的认知惯性时，其巨大的潜力被低效的运作方式所束缚。快手与南大团队的 HiPO 框架，如同一位高明的教练，不是粗暴地限制模型的「思考」，而是教会它判断「何时该深思熟虑，何时可一击即中」。
这项研究巧妙地平衡了推理的「质」与「效」，为构建真正高效、可靠、适用于真实世界的下一代人工智能助手奠定了坚实的基础。在 LLM 竞速发展的下半场，「智能效率」或许将是比「暴力计算」更重要的决胜筹码。
目前，HiPO 的相关模型和资源已在Hugging Face 平台开源，供社区研究和使用。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

首创“装甲CAR-T”，中国科研团队为实体瘤治疗提供新策略

299元荣耀亲选100W移动电源开售：20000mAh容量、自带挂绳设计

首个AI全面落地的“双十一”，算法不能“背刺”消费者

在佛山顺德，他们推动机器人核心技术本土化替代

从“芯”到“电”，美银：中国AI基础设施非IT投资规模将达8000亿元

苹果邀请英国iPad用户共创“圣诞树”，获奖作品将在伦敦总部点亮

全站最新

首创“装甲CAR-T”，中国科研团队为实体瘤治疗提供新策略

299元荣耀亲选100W移动电源开售：20000mAh容量、自带挂绳设计

首个AI全面落地的“双十一”，算法不能“背刺”消费者

在佛山顺德，他们推动机器人核心技术本土化替代

热门推荐

首创“装甲CAR-T”，中国科研团队为实体瘤治疗提供新策略

我国首部系统展示果树种质资源多样性与创新利用成果丛书发布

299元荣耀亲选100W移动电源开售：20000mAh容量、自带挂绳设计

中拉新能源汽车专题对话会举行 | 第十八届中国—拉美企业家高峰会

首个AI全面落地的“双十一”，算法不能“背刺”消费者

在佛山顺德，他们推动机器人核心技术本土化替代

从“芯”到“电”，美银：中国AI基础设施非IT投资规模将达8000亿元

路维光电：已实现180nm制程节点半导体掩膜版量产

苹果邀请英国iPad用户共创“圣诞树”，获奖作品将在伦敦总部点亮

专项创作资金+多重激励，“看静安·见未来”AI短视频创作大赛全社会征稿

超薄机不香了？卢伟冰暗示小米或放弃「Air手机」

微软与IREN签订97亿美元云服务合同，采购英伟达芯片

宝宝巴士“低俗广告”牵出背后利益链条！超七成收入来自广告

科学家在南极挖到 600 万年前的“冰疙瘩”，里面裹着史前空气

中国国际智能传播论坛7日无锡举行