徐慧志的个人博客

2025-12-04 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model

发布于 2025年12月04日  •  1 分钟  • 37 字
Table of contents

最近读了这篇论文 Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 这是NIPS 2025最佳论文之一。

探索的问题

这篇文章探索的是大模型的能力边界和效率问题。举个例子:用强化学习去训练大语言模型,到底是让它更有能力了,还是仅仅让它更会考试了?这里的更有能力指的是它掌握了之前不会的新知识或推理方法,而更会考试只是让它更擅长快速找到能得高分的答案。

为了搞清这个问题,研究团队做了一系列实验。他们首先指出,我们用来衡量模型好坏的指标,比如一次答对率(pass@1),其实主要反映的是模型的答题效率,而不是它真正的能力边界。

他们引入了一个叫 pass@k 的评估思路。简单来说,就是允许模型对同一个问题尝试回答很多次(比如k=100次),只要在这么多次尝试里能有一次答对,就认为它有能力解决这个问题。

核心发现:实验足够次数时,RL并没有优势

实验的结果有些出人意料。他们在数学题和代码生成等多个任务上都发现了一个共同的现象:

原因

为什么会出现这种现象呢?论文通过进一步分析给出了解释。他们发现,RL模型能给出的那些正确答案,其实早就存在于基础模型的知识里了。这就是答案同源性——验证 RL 模型的正确答案均存在于基座模型的输出分布中,RL 仅通过调整概率分布筛选高奖励路径。

所以,研究的核心结论是:当前的强化学习方法,主要是提高了模型从已有知识中采样出正确答案的效率,但并没有真正意义上拓展模型推理能力的边界。

RL 与蒸馏训练的对比

论文还对比了知识蒸馏。与强化学习不同,蒸馏训练是让一个小模型(学生)去学习一个更大、更强的模型(老师)的整个思考过程和输出。研究指出,蒸馏训练是能够真正为模型注入新知识、从而拓展其能力边界的。因为学生模型学到了老师模型的全新推理模式,而不仅仅是优化了从自己原有知识中抽取答案的概率。

总结与思考

对我而言,这篇论文的价值有两点:一是原来模型的能力边界与效率不是一回事。能力边界指模型是否具备解决问题的潜质。而效率指模型在有限资源下的表现。不能用效率指标来衡量能力边界,两者本质不同。二是蒸馏模型可以注入新知识。

Sein heißt werden, leben heißt lernen.

Der einfache Weg is immer verkehrt.