2025-12-04 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model
发布于 2025年12月04日 • 1 分钟 • 37 字
Table of contents
最近读了这篇论文 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 这是NIPS 2025最佳论文之一。
探索的问题
这篇文章探索的是大模型的能力边界和效率问题。举个例子:用强化学习去训练大语言模型,到底是让它更有能力了,还是仅仅让它更会考试了?这里的更有能力指的是它掌握了之前不会的新知识或推理方法,而更会考试只是让它更擅长快速找到能得高分的答案。
为了搞清这个问题,研究团队做了一系列实验。他们首先指出,我们用来衡量模型好坏的指标,比如一次答对率(pass@1),其实主要反映的是模型的答题效率,而不是它真正的能力边界。
他们引入了一个叫 pass@k 的评估思路。简单来说,就是允许模型对同一个问题尝试回答很多次(比如k=100次),只要在这么多次尝试里能有一次答对,就认为它有能力解决这个问题。
核心发现:实验足够次数时,RL并没有优势
实验的结果有些出人意料。他们在数学题和代码生成等多个任务上都发现了一个共同的现象:
- 当只允许尝试一两次时(k很小):经过强化学习训练的模型表现更好,得分更高。这说明强化学习确实提升了模型快速命中正确答案的效率。
- 当允许尝试很多次时(k很大):情况发生了反转。基础模型的能力覆盖率逐渐追平,并且最终超过了RL模型。
原因
为什么会出现这种现象呢?论文通过进一步分析给出了解释。他们发现,RL模型能给出的那些正确答案,其实早就存在于基础模型的知识里了。这就是答案同源性——验证 RL 模型的正确答案均存在于基座模型的输出分布中,RL 仅通过调整概率分布筛选高奖励路径。
所以,研究的核心结论是:当前的强化学习方法,主要是提高了模型从已有知识中采样出正确答案的效率,但并没有真正意义上拓展模型推理能力的边界。
RL 与蒸馏训练的对比
论文还对比了知识蒸馏。与强化学习不同,蒸馏训练是让一个小模型(学生)去学习一个更大、更强的模型(老师)的整个思考过程和输出。研究指出,蒸馏训练是能够真正为模型注入新知识、从而拓展其能力边界的。因为学生模型学到了老师模型的全新推理模式,而不仅仅是优化了从自己原有知识中抽取答案的概率。
总结与思考
对我而言,这篇论文的价值有两点:一是原来模型的能力边界与效率不是一回事。能力边界指模型是否具备解决问题的潜质。而效率指模型在有限资源下的表现。不能用效率指标来衡量能力边界,两者本质不同。二是蒸馏模型可以注入新知识。