news 2025/12/19 22:54:45

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

动机

现有 RLVR 虽能提高采样效率、在小采样数下提升表现,但并未真正挖掘出超越基础模型的新推理能力,其效果受制于基础模型本身,远未达到强化学习的理想潜力

然而,尽管 RLVR 在经验上取得了成功,其真正的有效性却仍缺乏深入审视。这引出了一个根本性问题:当前的 RLVR 是否真的能够像传统强化学习通过探索发现新策略那样,促使 LLM 获得“全新的”推理能力?还是说,它只是更高效地利用了基础模型中原本就存在的推理模式?

2. Preliminaries

2.1. Reinforcement Learning with Verifiable Rewards

可验证奖励(Verifiable Rewards)πθ\pi_{\theta}πθ为一个参数为 $\theta $ 的大语言模型(LLM),在给定自然语言提示 x 的条件下生成一个 token 序列y=(y1,…,yT)\textbf{y}= (y_{1},\ldots,y_{T})y=(y1,,yT)。一个确定性的验证器V\mathcal{V}V会返回一个二元奖励:r = V(x,y) ∈ {0,1}r\:=\:\mathcal{V}(x,\mathbf{y})\:\in\:\{0,1\}r=V(x,y){0,1},其中r=1r=1r=1当且仅当模型的最终答案完全正确。
此外,还可以加入一个格式奖励,以鼓励模型在输出中显式地将推理过程与最终答案分开。

强化学习的目标是学习一个策略,使期望奖励最大化: $J(\theta)=\mathbb{E}{x\sim\mathcal{D}}\left\lfloor\mathbb{E}{\mathbf{y}\sim\pi_{\theta}(\cdot|x)}[:r:]\right\rfloor $ 其中D\mathcal{D}D是提示xxx的分布。

RLVR 算法(RLVR Algorithms)。近端策略优化(Proximal Policy Optimization, PPO)(Schulman 等人,2017)提出使用如下的截断代理目标(clipped surrogate)来最大化目标函数:
LCLIP=E[min⁡(rt(θ)At, clip(rt(θ),1−ϵ,1+ϵ)At)], \mathcal{L}_{\text{CLIP}}=\mathbb{E}\left[\min(r_t(\theta)A_t,\:\text{clip}(r_t(\theta),1-\epsilon,1+\epsilon)A_t\right)],LCLIP=E[min(rt(θ)At,clip(rt(θ),1ϵ,1+ϵ)At)],
其中rt(θ)=πθ(yt∣x,y<t)/πθold(yt∣x,y<t)\begin{aligned}r_t(\theta)&=\pi_\theta(y_t|x,\mathbf{y}_{<t})/\pi_{\theta_{\mathrm{old}}}(y_t|x,\mathbf{y}_{<t})\end{aligned}rt(θ)=πθ(ytx,y<t)/πθold(ytx,y<t)AtA_{t}At是是由价值网络VϕV_{\phi}Vϕ估计得到的优势(advantage)。

可以选择加入 KL 散度项,用来约束模型不要过度偏离原始策略。更多算法将在第 C.5 节中介绍。

策略梯度(Policy Gradient)。PPO 及其变体属于强化学习中的策略梯度方法(policy gradient class of RL)(Williams, 1992; Sutton et al., 1998)。这类方法完全依赖on-policy样本进行学习,即由当前 LLM 生成的样本。在可验证奖励的设置下,训练目标通常是:最大化答案正确样本的对数似然,同时最小化答案错误样本的似然。

Zero RL Training。ZeroRL 训练是指在没有任何监督微调(SFT)的前提下,直接对基础模型进行强化学习训练(Guo et al., 2025)。为更清晰地研究 RLVR 的影响,我们在所有数学任务上都采用这一 zero-RL 设置,以预训练模型作为起始模型

然而,在代码和视觉推理任务中,开源工作通常使用指令微调后的模型作为起点,主要原因在于在纯 zero-RL 设置下,训练往往不稳定且效果有限。遵循这一惯例,我们在这些任务上比较“微调模型”与其对应的 “RLVR 训练后模型”,以便将分析重点聚焦在 RLVR 的作用本身。

However, for coding and visual reasoning tasks,open-source work typically uses instruction-tuned models as starting points, primarily due to the training instability and limited effectiveness of using a pure zero-RL setting.

2.2. Metrics for LLM Reasoning Capacity Boundary

Pass@k 指标。
准确衡量基础模型和 RL 模型的“推理能力边界”是一个具有挑战性的问题,因为贪心解码或 nucleus sampling 平均得分(Holtzman et al., 2020)只能反映平均意义上的表现。为更精确地刻画推理能力边界,我们将代码生成领域常用的 pass@k 指标(Chen et al., 2021)推广到所有带可验证奖励的任务上。

具体而言:对每个问题,我们从模型中采样 k 个输出;如果这 k 个样本中至少有一个通过了验证,则该问题的 pass@k 记为 1,否则记为 0。对数据集取平均后的 pass@k 值,就反映了:在 k 次尝试内,模型能够解出的题目在整个数据集中的比例,从而为 LLM 的“可解问题覆盖范围”提供一种严格的评估方式。
我们采用一种无偏、低方差的估计方法来计算 pass@k,具体细节见 A.2 节。

与 Best-of-N 和多轮投票的对比。
Best-of-N(Cobbe et al., 2021)和多数投票(majority voting)是实际应用中常用的正确答案选择方法,但它们可能无法全面反映模型的整体推理潜力。相比之下,我们使用 pass@k 的目的不是评估模型在实际应用中的效用,而是为了研究其推理能力边界

在我们的设定中,只要模型在 k 个采样中任意一个生成了正确解,我们就认为这个问题处在模型“有潜力解决”的范围内。因此,如果强化学习确实提升了推理能力,那么 RL 训练后的模型应该能在比基础模型更多的此类问题上取得成功。而像 Best-of-N 或多数投票这样的方式,如果验证器或投票机制最终没有选中那条正确解答路径,就会“错过”这些本可以成功的案例。

随机猜测问题。
对于代码任务,由于使用编译器和预先定义的单元测试用作验证器,pass@k 值可以较为准确地反映模型是否真正解决了问题。 但在数学任务中,随着 k 增大,“猜中”问题会变得更突出:模型即使产生了错误的思维链(CoT),也可能偶然给出正确答案。为此,我们对一部分模型输出的 CoT 进行人工核查,具体细节见第 3.1 节。通过将这种人工检查结果与代码任务的结果结合起来,我们对 LLM 推理能力的覆盖范围进行了更为严谨的评估。

另一个需要注意的点是:在天文数量级的超大 k 下,即便对 token 词表做均匀随机采样,也有可能“撞上”正确的推理路径——不过这在当前的时间与算力预算下并不可行。关键在于,我们发现:在现实可行的 k 值(如 k = 128 或 1024)下,基础模型就已经能产生正确输出,这些都处在实际资源开销的合理范围之内。

3. RLVR’s Effect on Reasoning Capacity Boundary

在确立了用于衡量推理边界的评估指标之后,我们现在通过大规模实验,对基础模型和 RLVR 模型进行全面评估。我们的分析按任务类别组织,涵盖三个具有代表性的领域:数学、代码生成和视觉推理。整体实验设置在表 1 中进行了总结。

评估协议。
在对基础模型与 RLVR 模型进行采样时,我们统一使用温度 0.6、top-p 取 0.95,并允许最多生成 16,384 个 token。我们也在图 17 中展示了不同温度设置的影响。
在评估基础模型时,常见做法是通过在提示中加入 few-shot 示例来引导输出(Grattafiori et al., 2024; Yang et al., 2024; Liu et al., 2024)。然而,为了确保对比的公平与无偏,我们刻意不为基础模型使用 few-shot 提示,从而消除上下文示例对推理可能产生的混杂影响。

在评估基础模型和 RLVR 模型时,我们使用与 RLVR 训练中相同的 zero-shot 提示,或基准任务给定的默认提示,以保证两者评估设置的一致性。有趣的是,尽管在缺少 few-shot 引导时,基础模型经常会给出格式不规范或看似无意义的回答,但我们观察到:在进行足够多次采样的情况下,它们仍然能够生成格式正确的输出,并成功解决复杂问题。训练与评估所用的提示模板见附录 D 节。

3.1 RLVR 在数学推理中的应用

模型与基准。在数学问题中,模型需要同时生成推理过程(即 CoT)和最终答案。为确保结论的稳健性,我们在多个 LLM 家族上进行实验,主要包括 Qwen2.5(7B/14B/32B 基础版),并额外加入 LLaMA-3.1-8B。我们采用由 SimpleRLZoo发布的 RLVR 模型,这些模型在 GSM8K 和 MATH 训练集上,使用 GRPO 进行 zero-RL 训练,只使用“正确性奖励”,不包含任何基于输出格式的奖励。

我们比较基础模型与 zero-RL 模型在不同难度基准上的 pass@k 曲线,这些基准包括:GSM8K、MATH500、Minerva、Olympiad、AIME24 和 AMC23。
此外,我们还纳入了 RLVR 模型 Oat-Zero-7B 和 DAPO-32B。这两个模型的特点是在具有挑战性的 AIME24 基准上表现出色。

RLVR 的影响:正确样本概率提高,但可解问题覆盖度下降。
如图 2 所示,我们在小 k 与大 k 场景下始终观测到相反的趋势。当 k 较小(例如 k = 1,对应于平均情况准确率)时,经过 RL 训练的模型普遍优于其基础模型。这与常见认知一致:RL 能提升模型表现,说明 RLVR 使模型“采样到正确答案”的概率显著增大。

**然而,随着 k 的增加,基础模型的 pass@k 曲线通常更陡峭,会不断追上并最终超过 RL 训练模型,在所有基准数据集上都呈现这一趋势,这表明基础模型在“可解问题的覆盖范围”上更广。**举例来说,在使用 32B 模型的 Minerva 基准上,当 k = 128 时,基础模型的表现比 RL 训练模型高出约 9%,这意味着它在验证集上能多解出大约 9% 的问题。

我们进一步考察了使用 Oat-Zero 和 DAPO 训练得到的 RL 模型。如图 11 所示,**尽管这些 RL 模型在初始阶段表现非常强劲,性能比基础模型高出近 30%,但最终仍被基础模型反超。**基于这些结果,我们得出结论:RLVR 在小 k 下确实提高了采样到正确回答的概率,但同时也收窄了模型整体的可解问题覆盖范围。我们将在第 4.1 节中进一步分析这一现象的根本原因。

思维链(CoT)案例分析。
我们在图 20 和图 21 中展示了从基础模型中采样得到的正确 CoT,这些案例是从 AIME24 中最难的问题上,基于 2048 次采样手动筛选出来的。基础模型的回答往往包含较长的思维链,并表现出一定的反思性行为,这突出了基础模型本身就具备很强的推理能力。

思维链有效性。
在数学问题中,常见的评估方式只关注最终答案是否正确,这存在被“投机/猜中”所干扰的风险。为了用 pass@k 准确刻画推理能力边界,关键在于评估:有多少被解出的题目是真正源于采样到正确的思维链,而不是“蒙对”最终答案。参考 Brown 等人(2024)的做法,我们对 GSM8K 数据集中“最难但可解”的问题——即平均准确率在 0% 到 5% 之间的问题——中所有导致正确答案的 CoT 进行了人工核查。

基础模型在这类问题上答对了 25 题,其中有 24 题至少包含一条正确的 CoT。类似地,RL 训练后的模型也答对了 25 题,其中 23 题至少包含一条正确的 CoT。我们还对高难度基准 AIME24 中平均准确率低于 5% 的题目对应的 CoT 进行了人工检查,细节见附录 C.2。基础模型在这类题目中答对了 7 题,其中在可判定的 6 题中,有 5 题至少包含一条正确的 CoT(另有 1 题因中间推理步骤被跳过而在正确性上存在歧义)。RL 训练后的模型在这类题目中答对了 6 题,其中 4 题至少包含一条正确的 CoT。
这些结果表明,基础模型确实能够通过采样得到有效的推理路径来解决这些问题

3.2. RLVR for Code Generation

模型与基准。我们采用开源的 RLVR 训练模型 CodeR1-Zero-Qwen2.5-7B,该模型基于 Qwen2.5-7B-Instruct-1M,在 12K 个 LeetCode 与 TACO 样本上进行 zero-RL 训练,共 832 步。

在评测方面,模型被评估于 LiveCodeBench v5(包含 2024 年 8 月至 2025 年 1 月间的 279 道题),以及 HumanEval+ 和 MBPP+。我们还评估了当前最强的开源 RLVR 代码模型 DeepCoder-14B,其构建于 DeepSeek-R1-Distill Qwen-14B 之上。两类模型的最大响应长度均设为 32k。由于计算开销较高,我们仅在 LiveCodeBench 上、在 k = 1、4、16、64 这几个代表性的设定下对它们进行评估。

RLVR 的影响。由于仅靠“瞎猜”几乎不可能通过所有单元测试,pass@k 能够可靠地衡量模型的推理能力边界。正如图 3、图 12 和图 4(左)所示,RLVR 在三个代码生成基准上的效果,与在数学基准上观察到的趋势高度一致。

3.3. RLVR for Visual Reasoning

模型与基准。在视觉推理任务中,模型必须联合理解视觉与文本输入,才能解决复杂的推理问题。自从 LLM 推理能力提升以来,这一方向在多模态社区中受到了广泛关注。在我们的实验中,我们选择“带有视觉上下文的数学问题”作为一个具有代表性的任务。我们使用 EasyR1 框架在 Geometry3K 数据集上对 Qwen2.5-VL-7B进行训练,并在过滤后的 MathVista-TestMini和 MathVision-TestMini上评估其视觉推理能力,这两个数据集都移除了多选题。

RLVR 的影响。如图 4(右)所示,RLVR 在视觉推理任务上的效果与我们在数学和代码基准中观察到的趋势高度一致。这表明,即便在多模态任务中,原始模型在“可解问题的覆盖范围”上也更广。

思维链(CoT)的有效性。类似地,我们对一部分最具挑战性的问题进行了人工检查,即那些平均准确率低于 5% 的题目。我们发现,对于原始模型和 RL 模型而言,在这类问题中有 8 题中有 7 题至少包含一条正确的 CoT。该结果进一步支持了 CoT 的有效性。

4. Deep Analysis

在本节中,我们对当前 RLVR 训练的影响进行更深入的分析,并强调蒸馏相较于 RLVR 的独特特性。此外,我们还设计了对照实验,用于考察不同强化学习算法及其设计选择所带来的影响。

4.1. Reasoning Paths Already Present in Base Models

准确率分布分析。
第 3 节的实验揭示了一个出人意料的现象:相比 RLVR 训练后的模型,基础模型在“可解问题”的覆盖范围上更广。为更好理解这一点,我们分析了 RLVR 训练前后准确率分布的变化情况。

如图 5 所示,RLVR 会提高接近 1.0 的高准确率区域的频率,并降低低准确率(例如 0.1、0.2)区域的频率。然而,一个偏离这一总体趋势的现象是:在准确率为 0 处的频率反而上升——这表明 RLVR 会导致更多“完全解不了”的问题。这也解释了 RLVR 在平均得分上表现更好的原因:提升并不是因为模型开始解决“新问题”,而是因为在基础模型本就能解的问题上,提高了采样效率。更多的准确率直方图见图 14。

可解问题覆盖率分析。
为了进一步研究这一现象,我们在 AIME24 和 MATH500 上比较了基础模型与其对应的 RL 训练版本各自能够解决的问题集合。我们发现:存在大量情形是基础模型能解而 RLVR 模型解不出来的,而“RLVR 解出但基础模型解不出”的情况则极少,如表 2 所示,具体细节见 C.7 节。

如表 5 所示,RL 训练模型所能解决的问题集合几乎是基础模型可解问题集合的子集。在代码任务中,我们也观察到了类似趋势(见表 6)。这就引出了一个自然的问题:

RL 训练后的模型生成的所有推理路径,是否都已经存在于其基础模型的输出分布之中?

困惑度分析。
为回答这一问题,我们使用“困惑度”(perplexity)这一度量。给定一个模型mmm、一个问题xxx,以及一个回答序列Y=(y1,…,yT)\mathbf{Y}=(y_{1},\ldots,{y}_{T})Y=(y1,,yT)(可以由同一个模型、其他模型或人类生成),困惑度被定义为该序列平均负对数似然的指数形式
PPLm(Y∣x)=exp⁡(−1T∑t=1Tlog⁡P(yt∣x,y1,…,yt−1)), \mathrm{PPL}_m(\mathbf{Y}\mid x)=\exp\left(-\frac{1}{T}\sum_{t=1}^{T}\log P(y_t\mid x,y_1,\ldots,y_{t-1})\right),PPLm(Yx)=exp(T1t=1TlogP(ytx,y1,,yt1)),
它刻画了在给定提示xxx的条件下,模型对响应序列Y\mathbf{Y}Y的预测能力;困惑度越低,说明模型生成该响应的可能性越高。

我们从 AIME24 中随机抽取两个问题,分别使用 Qwen2.5-7B-Base 和 SimpleRL-Qwen2.5-7B-Base 为每个问题各生成 16 个回答,分别记作Ybase\mathbf{Y}_{\mathrm{base}}YbaseYRL\mathbf{Y}_{\mathrm{RL}}YRL。我们还让 OpenAI-o1生成 8 个回答,记作YGT\mathbf{Y}_{\mathrm{GT}}YGT。如图 6 所示,PPLBase(YRL∣x)\mathrm{PPL}_{\mathrm{Base}}(\mathbf{Y}_{\mathrm{RL}}|x)PPLBase(YRLx)的分布与PPLBase(YBase∣x)\mathrm{PPL}_{\mathrm{Base}}(\mathbf{Y}_{\mathrm{Base}}|x)PPLBase(YBasex)分布的低困惑度部分高度吻合,对应的是基础模型更倾向于生成的那些回答。这说明:RL 训练后的模型给出的回答,很大概率本来也能由基础模型生成。

在附录 C.4 中,我们进一步展示了PPLBase(YRL∣x)\mathrm{PPL_{Base}}(\mathbf{Y}_{\mathrm{RL}}|x)PPLBase(YRLx)会随着 RL 训练的推进逐渐降低,这表明 RLVR 主要是在基础模型原有先验分布之内做“锐化”,而不是扩展到其先验之外。

总结。综合以上分析,我们得到三点关键结论。第一,由 RLVR 模型解出的题目,基础模型同样也有能力解出;观测到的平均分提升,来源于在这些“原本就可解的问题”上更高效的采样,而不是学会了解决全新的问题。第二,经过 RLVR 训练后,模型的推理覆盖范围往往比其基础模型更窄。第三,RLVR 模型所利用的所有推理路径,其实都已经存在于基础模型的采样分布之中。上述发现表明:RLVR 并未引入本质上全新的推理能力,训练后模型的推理上限依旧受制于其基础模型。

4.2. Distillation Expands the Reasoning Boundary

除了直接进行强化学习训练之外,提升小型基础模型推理能力的另一种有效途径,是从一个更强的推理模型进行蒸馏(Guo et al., 2025)。这一过程在后训练阶段与“指令微调”类似,不过训练数据不再是简短的指令—回答对,而是由教师模型生成的长思维链(CoT)推理轨迹。鉴于当前 RLVR 在“扩展推理能力”方面的局限,一个自然的问题是:蒸馏是否也会表现出类似的行为?

我们将注意力聚焦在一个具有代表性的模型 DeepSeek-R1-Distill-Qwen-7B 上,它是将 DeepSeek-R1 蒸馏到 Qwen2.5-Math-7B 得到的。我们将其与基础模型 Qwen2.5-Math-7B 及其 RL 训练版本 Qwen2.5-Math-7B-Oat-Zero 进行比较,并加入 Qwen2.5-Math-7B-Instruct 作为额外基线。正如图 7 所示,蒸馏模型的 pass@k 曲线在整个范围内都明显且持续地高于基础模型。这表明,与在本质上受限于基础模型推理能力上界的 RL 不同,蒸馏可以从更强的教师模型中引入新的推理模式。因此,蒸馏后的模型有能力突破基础模型原有的推理边界。

4.3. Effects of Different RL Algorithms

正如前文所述,当前强化学习的主要作用在于提升采样效率,而不是扩展模型的推理能力。为了对这一点进行量化,我们提出了“采样效率差距”(Sampling Efficiency Gap, ∆SE):其定义为RL 训练模型的 pass@1 与基础模型的 pass@k 之间的差值(在实验中我们取 k = 256)。∆SE 越小越好。接下来,我们通过一组干净可控的实验来研究不同强化学习算法在提升采样效率方面的效果。

实验设置。
我们基于 VeRL 框架重新实现了多种常用 RL 算法以进行公平对比,包括:PPO、GRPO、Reinforce++、RLOO、ReMax以及 DAPO。按照 DAPO和 Oat-Zero的做法,我们移除了 KL 项,以避免对模型学习施加额外约束。

训练过程中,我们使用 AdamW 优化器(Loshchilov & Hutter, 2017),学习率为常数10−610^{-6}106。在 rollout 设置上,我们采用 256 的 prompt 批大小,每个 prompt 生成 8 个响应;最大 rollout 长度为 8,192 个 token,采样温度设为 1.0;PPO 的 mini-batch 大小为 256。

为评估 RLVR 条件下的域内与域外泛化能力,我们将 Omni-MATH 的一个可验证子集 Omni-MATH-Rule划分为训练集(2,000 个样本)和域内测试集(821 个样本),并使用 MATH500 作为域外评测基准。

结果。
如图 8(上)所示,尽管不同 RL 算法在 pass@1 和 pass@256 上存在一些差异,但这些差异并不本质。不同算法得到的 ∆SE 值有所不同(例如,在域内测试集上,GRPO 的 ∆SE 为 43.9,而 RLOO 的最佳结果为 42.6),但整体仍处在一个相近的区间。

此外,我们观察到:在不同 RL 算法之间,∆SE 始终高于 40 个百分点,**这突显出现有 RL 方法在采样效率方面仍然远未接近最优。这表明,要逼近理论上界,可能需要全新的 RL 算法,甚至全新的训练范式。**更多细节和补充观察见附录 C.5。

4.4.EffectsofRLTraining

渐近效应(Asymptotic Effects)。
基于第 4.3 节的实验设置,我们研究训练步数对模型渐近性能的影响。如图 1(右)所示,随着 RL 训练的推进,训练集上的 pass@1 从 26.1 持续提升到 42.5。然而,随着 RLVR 训练的进行,pass@256 却逐步下降,这表明模型的推理边界在缩小。

rollout 数量 n 的影响。
训练超参数 n(即每个 prompt 生成的响应个数)可以通过在训练中提供更广的探索来影响 pass@k。我们将 n 从 8 增加到 32。如图 16 所示,在 n = 32 时 pass@k 相比 n = 8 有小幅提升,但 RL 训练后的模型最终仍然被基础模型超越。关于在更大规模下的 RLVR 训练是否能够最终超越基础模型,我们将这一问题留给未来研究。

KL 损失的影响。
为了控制模型偏离,一些已有工作会加入 KL 惩罚项。我们对此进行了消融实验,引入系数为 0.001 的 KL 项。如图 16 所示,相比于不带 KL 的 GRPO,带 KL 正则的模型在 pass@1 上表现相近,但在 pass@128 时明显更差。

4.5. Effects of Entropy

随着 RL 训练的推进,模型输出的熵通常会下降(Yu et al., 2025),这可能由于输出多样性降低而导致推理边界收缩。为研究这一因素,我们提高 RLVR 训练后模型的生成温度,使其输出熵与基础模型在 T = 0.6 时相匹配。正如图 18 所示,尽管在更高温度下,RLVR 模型的 pass@k 略优于其在 T = 0.6 时的表现,但在各个 pass@k 指标上仍整体不及基础模型。这表明:输出熵降低虽然会促成推理边界的收窄,但仅靠这一因素并不足以完全解释边界缩减的现象。

4.6. Effects of Model Size Scaling

规模对当代大模型能力起着核心作用。一个重要的开放问题是:当模型规模不断增大时,我们前面的结论是否依然成立?对许多大模型来说,想要“单独隔离”RLVR 的作用并不现实。比如,在 GPT-o1 的情况下,其基础模型并未公开,无法对比;Qwen3-235B经过了多个阶段的训练,包括 RLVR 和长上下文 CoT 的监督微调,因此无法将 RLVR 的影响单独剥离出来。

对于 Deepseek-R1-Zero,由于缺乏公开托管的 API,我们不得不自行部署模型,但在最长 32k 序列长度下,吞吐量仅约每秒 50 个 token,使得进行系统性的 pass@k 评估在目前几乎不可行。

作为一个更可操作的替代方案,我们选用了 Magistral-Medium-2506 的 API 来进行一组初步实验。该模型采用纯 RL 训练,以 Mistral-Medium-3-2505 作为起始模型(Rastogi et al., 2025)。虽然模型参数规模并未公开,但 Magistral-Medium 的表现与 Deepseek-R1 相当,在推理能力上接近当前前沿水平。我们按照原论文的设置,将最大上下文长度设为 40k 来查询这些模型。

结果再次表明:RLVR 在小 k 时带来了显著收益,而在大 k 时几乎没有提升,甚至不再有优势。具体来说,在 k = 1 时,加入 RLVR 的模型在 AIME24 上多解出了约 7 道题,在 AIME25 上多解出了约 8 道题,相比其基础版本有明显改进。然而,随着 k 的增加,这一性能差距会逐步缩小。

**这些现象表明:即便对于当前推理能力接近前沿的强大模型,我们的结论依然成立。**未来一个关键问题是:当有更多算力(例如更大的预训练规模预算)投入到 RL 训练上时,这一趋势是否仍将持续,仍是 LLM 推理领域亟待回答的重要方向。

5. Discussion

讨论 1:传统 RL 与用于 LLM 的 RLVR 的关键差异:极大动作空间与预训练先验
传统强化学习(如 AlphaGo Zero 和 DQN 系列,Silver et al., 2017; Mnih et al., 2015; Yue et al., 2023)可以在围棋和 Atari 等环境中,在没有显式上界的情况下持续提升策略性能。而传统 RL 与用于 LLM 的 RLVR 之间存在两个关键区别。
首先,语言模型的动作空间规模远远大于围棋或 Atari 游戏(呈指数级增长)(Ramamurthy et al., 2023)。现有 RL 算法最初并不是为如此巨大的动作空间设计的,如果从零开始训练,几乎不可能有效探索到有用的奖励信号。
因此,第二个区别是:LLM 场景下的 RLVR 必须从一个带有有用“先验”的预训练基础模型出发,而 Atari 和围棋中的传统 RL 通常是从零开始训练。正是这个预训练先验引导 LLM 生成合理的响应,从而大幅降低了探索难度,使得策略有机会获得正向奖励反馈。

讨论 2:在巨大动作空间中,“先验”是一把双刃剑
由于响应采样是由预训练先验所引导的,策略往往难以探索到超出该先验的新推理模式。具体来说,在如此复杂且高度组合化的空间中,通过“朴素的 token 级采样”进行探索时,大多数生成的响应都会被限制在基础模型先验所覆盖的范围内。一旦采样偏离这一先验,就极有可能生成无效或无意义的输出,从而得到负向的结果奖励。
如第 2.1 节所述,策略梯度类算法会最大化先验内部那些获得正向奖励的响应的对数似然,同时最小化先验之外、获得负向奖励的响应的似然。其结果是,训练后的策略倾向于生成本就存在于先验中的响应,从而将推理能力限制在基础模型的边界之内。
从这个角度来看,从“蒸馏后的模型”继续做 RL 训练,可能在一段时间内是一种有益的折中方案,因为蒸馏有助于注入更好的先验。

可能的未来工作
如上所述,在巨大的动作空间中低效的探索机制,以及对二元结果奖励的高度依赖,可能是当前 RLVR 受限的根本原因。要从根本上解决这些挑战,可以考虑以下几个方向:

  • 在高层抽象空间中进行高效探索。
    像 AlphaEvolve(Novikov et al., 2025)这类在“程序级抽象空间”中进行自我进化的高层探索机制,可能对于在广阔动作空间中导航至关重要。这样的策略有望帮助模型发现超出先验的新推理模式和前所未见的知识结构。
  • 通过课程式数据扩展规模(curriculum)。
    一种课程式训练可以从较简单的子问题开始,让模型先提升在简单任务上的采样效率并习得关键的“元技能”。在逐步提高难度的过程中,通过先在易题上大幅提高成功率,再转向难题,这种分层课程可能有效缩小探索空间,使得在更困难的“父任务”上从“几乎为零”提高到“非零”的成功率,从而让 RLVR 能够获得有意义的奖励信号(Zhang et al., 2025; Li et al., 2025)。
    虽然在当前的 RLVR 训练数据中,偶尔可以看到类似的层级关系,并且已有工作观察到它们的部分效果(Chen et al., 2025b),但要充分发挥其潜力,仍然需要一个更加精心设计、规模更大的“数据–RL 迭代流水线”,以确保对元技能的充分覆盖,并合理组织“简单问题—困难问题”之间的结构关系。
  • 过程奖励与更细粒度的信用分配。
    相较于纯粹的二元结果奖励,如果能沿推理轨迹提供中间过程信号,将有望显著提升探索效率,并引导探索朝向更有前景的解题路径。
  • Agent 式强化学习(Agentic RL)。
    当前的 RLVR 推理基本局限于单轮响应,而基于反馈的多轮迭代改进对接近 IMO 水平的推理尤为关键(Huang & Yang, 2025)。现有方法也缺乏主动获取新信息的能力,比如使用检索工具或开展实验。
    一个多轮交互式的“agentic RL”范式,借助更丰富的环境反馈,有望让模型主动生成新经验并从中学习。这类新兴的智能体框架被形容为“经验时代(era of experience)”的开端(Silver & Sutton, 2025)。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/16 0:34:41

基于MATLAB的零件表面缺陷检测系统设计与实现

摘要&#xff1a;随着工业生产对零件质量要求的不断提高&#xff0c;零件表面缺陷的检测成为质量控制中的重要环节。传统人工检测方式效率低、主观性强&#xff0c;难以满足现代制造业对检测精度与稳定性的要求。因此&#xff0c;研究一种高效、可靠的零件表面缺陷自动检测方法…

作者头像 李华
网站建设 2025/12/15 14:29:45

c++类和对象(上)

类是c的独特形式&#xff0c;可以在类中包括函数进行。对象是通过类创建的一个个变量。类的存储类中的每一个类中的函数&#xff0c;不存入类的内存。如图定义了一个类&#xff0c;有一个int类型&#xff0c;4字节。一个函数无内存。类的存储的大小还要看对齐数对齐数&#xff…

作者头像 李华
网站建设 2025/12/15 14:29:43

Windows11中使用VS2022编译运行libevent网络库

Windows11中使用VS2022编译运行libevent事件通知网络库 libevent事件通知库介绍 libevent 是一个异步事件通知软件库。libevent API 提供了一种机制&#xff0c;可以在文件描述符上发生特定事件或超时后执行回调函数。此外&#xff0c;libevent 还支持因信号或常规超时而触发…

作者头像 李华
网站建设 2025/12/19 11:32:15

wgpu实例化渲染技术深度解析:从性能瓶颈到GPU并行计算优化

wgpu实例化渲染技术深度解析&#xff1a;从性能瓶颈到GPU并行计算优化 【免费下载链接】wgpu Cross-platform, safe, pure-rust graphics api. 项目地址: https://gitcode.com/GitHub_Trending/wg/wgpu 在当代图形应用程序开发中&#xff0c;面对海量相似几何体的渲染需…

作者头像 李华
网站建设 2025/12/15 12:02:29

构建下一代实时语音处理框架:dora-rs架构深度解析

突破实时语音处理的技术瓶颈 【免费下载链接】dora dora goal is to be a low latency, composable, and distributed data flow. 项目地址: https://gitcode.com/GitHub_Trending/do/dora 在AI语音交互应用爆炸式增长的今天&#xff0c;传统语音处理方案面临严峻挑战&a…

作者头像 李华