2025-12-04 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model

Table of contents

最近读了这篇论文 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 这是NIPS 2025最佳论文之一。

这篇文章探索的是大模型的能力边界和效率问题。举个例子：用强化学习去训练大语言模型，到底是让它更有能力了，还是仅仅让它更会考试了？这里的更有能力指的是它掌握了之前不会的新知识或推理方法，而更会考试只是让它更擅长快速找到能得高分的答案。

为了搞清这个问题，研究团队做了一系列实验。他们首先指出，我们用来衡量模型好坏的指标，比如一次答对率（pass@1），其实主要反映的是模型的答题效率，而不是它真正的能力边界。

他们引入了一个叫 pass@k 的评估思路。简单来说，就是允许模型对同一个问题尝试回答很多次（比如k=100次），只要在这么多次尝试里能有一次答对，就认为它有能力解决这个问题。

实验的结果有些出人意料。他们在数学题和代码生成等多个任务上都发现了一个共同的现象：

为什么会出现这种现象呢？论文通过进一步分析给出了解释。他们发现，RL模型能给出的那些正确答案，其实早就存在于基础模型的知识里了。这就是答案同源性——验证 RL 模型的正确答案均存在于基座模型的输出分布中，RL 仅通过调整概率分布筛选高奖励路径。

所以，研究的核心结论是：当前的强化学习方法，主要是提高了模型从已有知识中采样出正确答案的效率，但并没有真正意义上拓展模型推理能力的边界。

论文还对比了知识蒸馏。与强化学习不同，蒸馏训练是让一个小模型（学生）去学习一个更大、更强的模型（老师）的整个思考过程和输出。研究指出，蒸馏训练是能够真正为模型注入新知识、从而拓展其能力边界的。因为学生模型学到了老师模型的全新推理模式，而不仅仅是优化了从自己原有知识中抽取答案的概率。

对我而言，这篇论文的价值有两点：一是原来模型的能力边界与效率不是一回事。能力边界指模型是否具备解决问题的潜质。而效率指模型在有限资源下的表现。不能用效率指标来衡量能力边界，两者本质不同。二是蒸馏模型可以注入新知识。