无需强化学习(RL)、验证器、CoT,语言模型也能「解锁」推理能力?
一项新研究证明:只需在基础语言分布上进行测试时采样,即可获得与GRPO相当(甚至更好)的性能!
无需训练,还可适用于不可验证的领域。
作者为哈佛大学计算机科学助理教授 Yilun Du 和博士生 Aayush Karan。
1️⃣ 背景
强化学习提升了LLM在数学、编程和科学等前沿领域的问题解决能力。然而:强化学习在多大程度上能够激发出基础 LLM 中原本不存在的新行为?
研究团队写道,“悲观的证据表明,像GRPO这样的RL算法在pass@k指标上表现不如基础模型,并表现出生成多样性的损失。”
2️⃣ 方法
受马尔可夫链蒙特卡洛(MCMC)的启发,他们提出了一种利用基础模型自身似然函数的简单迭代采样算法。
具体而言,由于基础模型倾向于生成高似然的内容,他们提出从幂分布P^α中采样,自然地锐化基础LLM分布P。
直观地说,P^α对未来路径高度敏感,它会强烈降低那些会导致模型陷入低似然结果的token权重。这种类似“规划”的机制,对于推理类任务来说非常具有价值。然而,直接从P^α中采样是不可行的,因为它需要在指数级大的序列空间上进行归一化。
他们采用Metropolis-Hastings(一种MCMC算法)近似采样器,通过部分重采样新的候选内容、并根据P^α的概率决定是否接受,迭代改进生成结果。
为了使这种方法适用于LLM,他们将Metropolis-Hastings整合进自回归生成中,从而逐块构建来自P^α的样本。
3️⃣ 结果
实验结果显示,在无需额外训练或验证器的情况下,他们的采样器在多个领域和基础模型上实现了与GRPO相当的 single-shot 准确率,甚至在一些跨领域任务(如编程)以及无法验证的任务(如Alpacaeval)中超越过了GRPO。
他们认为,基础模型本身在推理方面的潜力远超传统采样方法所呈现的水平。同时,设计更好的LLM采样器在通用语言领域中(不仅限于可验证推理任务)也具有广泛的应用价值。 推理 论文 #学术
paper:Reasoning with Sampling: Your base Model is Smarter Than You Think