强化学习Scaling来了!
不久前,英伟达的研究团队公布了一种创新性的训练技术——ProRL,这一方法使得强化学习(RL)的步数上限达到了2000步。
该研究论文的地址为:https://arxiv.org/abs/2505.24864,读者可通过此链接获取详细内容。
而且,它借助了涵盖数学、编程、STEM学科、谜题解决以及指令执行的跨领域训练数据,成功提升了其泛化能力。
依据这一技术路径,该研究小组培育出的1.5亿参数模型,其表现力与Deepseek-R1-7B相当出色!
这证实了,通过长时间训练,RL确实能解锁全新推理能力。
这正是强化学习的Scaling Law所揭示的规律:随着强化学习训练时间的增加,大型语言模型(LLM)的推理能力也随之增强。
黄仁勋显得非常愉悦,因为早在年初,他就已经提出了所谓的“三大AI扩展定律”。
预训练的Scaling Law已接近极限,而后续训练的Scaling Law正展现出强劲的动力。
强化学习的扩展应用对计算资源的需求较高,对于英伟达来说,这无疑意味着巨大的商业机遇和丰厚的利润。
后训练扩展技术通过应用微调、精简、浓缩以及强化学习等多种策略,对预训练模型进行优化,进而增强其执行任务的效率和适应能力。
这次研究的主要发现:
强化学习Scaling
只要2000步
近期,众多人士对RL是否确实增强了模型的推理效能表示怀疑。更有研究指出,RL可能无法为基模注入新的推理能力。
这些观点认为,RL的效果受限,主要源自以下问题:
训练范围过于局限:例如过分集中于数学等特定学科,使得模型在泛化能力上存在困难。
强化学习的训练时长不够:众多案例在仅走过数百步之后便宣告结束,未能充分发掘其内在的潜能。
这些限制条件使得人们错误地认为RL无法跨越基础模型的推理限制。然而,实际情况并非如此。
英伟达这项突破性研究,带来了振奋人心的答案:
只要将RL训练足够久,AI推理能力就能实现质的飞跃!
ProRL成为了一种超越2000步的强化学习新方案,它借助KL惩罚机制和策略重置的周期性调整,成功克服了两个长期困扰该领域的核心问题——熵的崩溃以及训练过程中的不稳定性。
在论文中,作者借助ProRL技术,成功构建了一个参数量仅为15亿的推理模型,该模型名为Nemotron-Research-Reasoning-Qwen-1.5B。
ProRL的关键创新之处在于,它使得模型能够在全新任务中,寻找到基础模型根本无法触及的解决途径。
结果显示,在数学领域、编程技能、STEM相关学科、解谜能力以及指令执行方面,1.5B模型展现出了卓越的泛化能力,其表现完全不亚于Deepseek-R1-7B。
此外,众多测试案例中,即便基础模型经过多次数据采集,其表现依然不尽如人意,但经过ProRL训练的模型却能够达到完美的100%通过率。
特别是在处理高难度任务以及跨领域任务时,ProRL训练所生成的模型展现出卓越的表现。这一事实充分证明了其推理能力实现了真正的扩展,并且成功地将超出训练数据范围的抽象推理模式进行了内化。
以Codeforce的任务为参照,RL后模型的解决方法传播得更为广泛,同时也显现出了更为丰富的多样性。
针对这项全新的家庭关系任务,模型的表现实现了飞跃,从起初几乎为零的通过率,一跃达到了完美的准确率,并成功探索出了全新的解题途径。
现在,让我们来探究ProRL方法的具体实施过程。那么,为何仅仅2000步就能引起如此明显的效果变化呢?
核心在于对策略优化根本机制的深入探索:GRPO与KL正则化的相互促进与共同进步,为强化学习带来了稳定性和丰富的多样性。
改造GRPO
「三板斧」解决熵坍缩
在策略优化训练时间较长时,主要难题是熵坍缩。
熵值在训练初期急剧降低,这是由于模型输出的概率分布迅速趋向集中状态。
熵值收缩之际,策略往往过早地锁定于少数几种输出,这极大地束缚了其探索的广度。
对于GRPO(组相对策略优化)这类强化学习算法而言,多元化的输出样本是评估相对优势的关键,故而探索空间的受限会导致学习信号出现偏差,进而使得训练过程难以持续有效地进行。
提升样本的采集温度,尽管能够推迟熵的坍缩过程,然而在训练过程中,熵值仍旧会不断减少。
这次,研究团队彻底改造了GRPO方法。
GRPO的优化目标如下:
τ代表的是目前策略πθ所选取的行动,而rθ(τ)则反映了当前策略与先前策略之间的概率比率。
GRPO模型中的优势函数并非依赖PPO算法中的价值网络,而是独立地利用相同样本集{Ri}的得分数据来计算基线值。
DAPO的启发
DAPO算法中的一些核心模块,为研究团队在熵坍缩问题的攻克上提供了灵感。
该研究论文的地址为:https://arxiv.org/abs/2503.14476,请点击链接查阅。
DAPO首先采纳了“解耦剪辑”这一策略,并在PPO的目标函数中,将上下剪辑的界限视作两个各自独立的超参数。
通过设定ϵ_high为较高数值,算法倾向于促进“向上剪辑”行为,这实际上是指增加原本生成概率较低token的几率,进而拓宽了模型的探索空间。
他们发现,这种调整有利于维持输出熵的稳定,同时还能有效降低模式过早坍缩的风险。
DAPO还运用了所谓的“动态采样”方法,该方法的具体做法是筛选掉那些模型总是能够准确无误(准确率高达1)或始终无法正确响应(准确率降为0)的提示语。这些例子并不能为模型的学习过程提供有价值的信号。
相反,训练重点转向了“中等难度”的样本,这样做有利于维持学习信号的多样性,进而推动模型不断取得进步。
显式正则化:更强、更稳定
尽管采用DAPO机制和调整采样温度能在一定程度上缓解熵的坍缩现象,然而,引入显式的正则化策略——KL散度惩罚项,则能带来更为强大且稳定的解决途径。
具体来说,研究团队在现有策略πθ与参照策略πref中引入了KL散度作为惩罚机制。
此惩罚措施不仅对保持策略的熵值有积极作用,而且还实现了正则化效果,有效遏制了当前策略过分偏离既定稳定策略的可能,进而增强了训练过程的稳定性,减少了模型对某些虚假奖励信号的过度拟合风险。
此外,在训练过程中,KL惩罚项在损失函数中的比重可能会变得过大,这可能会导致策略更新的幅度受到限制。
为了应对这一挑战,该研究小组采纳了一项既简便又实用的策略:即借鉴策略重置技术(Reference Policy Reset)。
具体操作包括:定时将参照策略πref强制更新为当前策略πθ的最新版本,同时对新优化的状态进行重新设定。
该机制不仅有助于模型持续优化,还确保了KL正则化带来的稳定效果。在训练的全过程中,我们反复实施这一重置策略,旨在避免模型过早停滞,并促进其进行更长时间的深入训练。
全面泛化
1.5B刷新SOTA
依托于稳固的奖励计算体系、升级版的GRPO算法以及延长的训练时长,Nemotron-Research-Reasoning-Qwen-1.5B模型在众多任务中均显现出了卓越的泛化性能。
项目链接为:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B,该链接指向的是NVIDIA公司发布的Nemotron Research Reasoning Qwen 1.5B项目。
在各个相关领域,新提出的模型均展现出超越基础模型DeepSeek-R1-Distill-Qwen-1.5B的显著性能优势。
除此之外,在数学领域增长了4.6%,编程领域增长了6.5%,该新模型更是超越了那些专门为特定任务进行训练的基线模型,这充分证明了通用型强化学习(Prolonged RL)训练方法的实际效果。
实验设置
研究团队为检验该假设,精心搭建了一个丰富多样且易于验证的训练数据集,该数据集包含大约13.6万个样本。这些样本分布涉及五个不同的任务领域,分别是:数学领域、编程领域、理工类领域、逻辑谜题领域以及指令遵循领域。
每个任务类别都配备了明确且易于识别的奖励指标,这些指标可以是二元或连续的,确保了在训练阶段能够获得稳定的反馈信息。
表4:这次研究中使用的训练数据概览
为了确保长周期强化学习训练的效率,他们实时跟踪监控了训练的进展情况,这涉及对融合的验证集(即从评估基准集中抽取的部分数据)的持续观察。
验证集的成效出现停滞或下滑迹象时,他们会采取对参考模型及优化器进行强制性的重新初始化措施,旨在恢复训练过程的稳定性,同时为策略的持续调整和偏离原始基础模型提供可能。
在训练过程中,大多数时间对响应长度做了限制,限定在8000个token以内,以此确保输出的结果既简洁又稳定。
在训练的最后一个阶段,大约经历了200个步骤,此时上下文窗口中的token总数已经增加至16000。
研究团队观察到模型能够迅速适应,并取得了可观的性能提升。
图2呈现了在多阶段扩展强化学习阶段中,训练过程中的关键动态统计数据。
DAPO的多样化增强手段,融入了KL散度损失的计算,有力地阻遏了模型在训练过程中出现熵值降低的问题。
尽管发现平均响应长度与验证集的得分呈现出一定的正向联系,然而这一关联并非是决定性的;在某些训练阶段,即便响应长度并未显著增长,系统性能仍旧实现了提升。
在此期间,验证性能(以pass@1和pass@16两项指标为评判标准)不断优化,同时伴随着训练所需计算量的逐步加大,其表现也在稳步地增强。
下图8展示了整个训练过程中KL散度的变化情况。

实验利用开源项目reasoning-gym进行。
项目地址为:https://github.com/open-thought/reasoning-gym,该链接指向的是“推理健身房”项目。
评测结果分析
研究团队在多个领域对DeepSeek-R1-Distill-Qwen-1.5B基础模型和Nemotron-Research-Reasoning-Qwen-1.5B进行了深入的对比分析。
新模型在所有数学推理的基准测试中均表现出色,其性能超越了基础模型,平均提升了15.7%,具体数据可参考表1。
在复杂数学推导任务中展现出更强的逻辑连贯性。
在参与竞技编程挑战时,我的准确率(pass@1)提高了14.4个百分点,特别是在算法优化和边界条件判断方面表现出色(详情请参阅表2)。
在STEM推理与指令跟随的测试中,GPQA Diamond的基准成绩实现了25.9%的显著增长;同时,IFEval指令理解任务的表现也提升了22.0%(详见表3左侧数据)。
在逻辑谜题测试中,即便基础模型通常在处理格式解析和复杂子任务时遇到难题,其奖励分数仍实现了54.8%的增长。
新模型展现出优异的非结构化问题分解能力(见表3左侧)。
即便与DeepSeek-R1-Distill-Qwen-7B这样参数量更为庞大的模型相较,这个1.5B的新模型在多数领域中的表现不仅相当,甚至更为出色,这充分证明了ProRL方法的高效性。
关键成果显现:强化学习训练不仅显著提高了模型在各个专业领域的应用效果,而且在基础模型原本无法胜任的任务上取得了显著的突破,充分证明了该方法在增强模型本质推理能力方面的显著效用。
分布外任务(OOD)泛化能力
表3(位于右侧)呈现了该新型模型在Reasoning Gym平台上的各项分布式(即超出预期范围)任务中的表现情况。
该模型在三个不同的开放域学习任务上均实现了显著效果,彰显了其卓越的推广能力。由此可见,这种新的训练策略对于模型应对未知情况具有积极作用。
与领域专用模型的对比
研究团队对Nemotron-Research-Reasoning-Qwen-1.5B进行了比较,同时与两个特定领域的基准模型进行了对比:一个是DeepScaleR-1.5B,专注于数学推理;另一个是DeepCoder-1.5B,主要针对编程任务。
下表2显示,基于ProRL训练的模型具备强泛化能力,在:
此外,ProRL技术使得模型能够在较短的响应长度内实现更为深入的推理和优化过程;与此相对,传统方法常常在响应长度尚未充分时便急于增加,这往往会导致所谓的“过度思考”现象,进而产生冗长且繁复的推理内容。
实验分析
这次的主要分析结论如下:
提升模型在拓展推理范围(通过pass@128指标来评估)方面的表现,与该模型初始的基础能力紧密相连。
强化学习无疑能极大地提升模型的推理水平,特别是在处理那些超出了基础模型原本功能范畴的复杂任务时。
强化学习确实能够拓宽大型语言模型推理的能力范围,并且这种能力可以应用于训练过程中未曾接触过的不同分布的任务中。
新方法ProRL不仅显著提升了平均通过率pass@1,而且有效抵消了训练过程中可能出现的输出方差增大问题,进而全面提高了pass@k的最高值,促使推理性能实现质的飞跃。
起点越弱,收益越大
本研究的一个重要发现表明,强化学习在拓宽模型推理范围(采用pass@128指标进行评估)方面的成效,与基础模型起始的机能水平有着紧密的联系。
如图3所示,研究团队发现,基础模型的推理边界越不稳固,它在经过强化学习训练后所实现的推理能力提升就越为显著,这一现象与二者之间的负相关关系表现得尤为明显。
具体来说:
为了更深入地证实这一现象,他们设计并采用了“创造力指数”这一指标,该指数旨在评估基础模型在各个任务中的输出与大规模开源预训练语料库DOLMA的相似程度。
研究发现,经过强化学习训练后进步微乎其微的任务,其创造力评分普遍不高——
尤其是一些数学和编程任务(图中用圆圈标出)。
这显示出,在预训练阶段,基础模型已经接触了众多类似内容,因此对这类任务已有所了解,而且通过强化学习也难以实现显著的性能提升。
图3展示:左侧图示表明,在基础模型刚开始难以处理的任务中,ProRL展现出卓越的能力,能够显著拓宽模型的推理范围。右侧图示中,那些圆圈标注的任务在经过强化学习(RL)后,其收益相对较低,这些任务往往在创造力指数上也表现出较低的水平。
解构ProRL的推理边界
他们对各个评估基准任务的训练成效进行了详细剖析,同时,依据训练阶段pass@k指标的变化走向,对这些任务进行了归类。
研究结果显示,强化学习明显增强了模型的推理效能,特别是在处理那些超出了基础模型初始功能极限的复杂任务时。
具体来说:
代码生成任务中,ProRL展现出了显著的成效,该领域内其性能得到了持续性的增强。这一现象揭示了,通过延长训练周期,模型得以更深入地挖掘,并逐步吸收更为复杂的推理机制。
总体而言,这些发现表明:在适宜的训练环境中,ProRL不仅能够提升模型当前的效能,而且能够超越基础模型的推理边界,进而促进模型推理能力的不断增长。
在评估阶段,我们发现ProRL在处理不同任务时,其推理边界的效应呈现出显著的多样性,具体可以概括为以下三种主要情形:
推理能力逐渐减弱,思维边界开始模糊。
在若干任务,特别是数学相关任务中,Nemotron-Research-Reasoning-Qwen-1.5B的推理表现较之基础模型出现了下降或者维持原状,这一发现与先前的研究观察结果相吻合。
在早期阶段,基于强化学习的收益会出现增长停滞的现象。
针对此类任务,通过RL训练,我们确实观察到了pass@1和pass@128的显著提升,这表明推理性能得到了加强。然而,这种提升主要集中体现在训练的早期阶段。
通过对比中间的训练检查点与最终的模型,我们可以观察到ProRL在训练的后期阶段几乎不再产生额外的收益,这一现象表明该模型对于此类任务的学习能力已经迅速达到了极限。
持续获取的收益,源自于ProRL项目的稳定产出。
与前面所述情形形成鲜明对比,一些任务——特别是那些相对复杂的任务,例如代码的自动生成——在经过一段较长的ProRL训练之后,其推理能力呈现出持续增强的趋势。
这些任务往往要求模型在训练阶段对众多问题进行深入挖掘,只有这样,模型才能在测试集上实现有效的泛化。在这方面,ProRL模型明显拓宽了推理的范畴,充分证明了在复杂任务中延长训练时间的巨大优势。
ProRL提升分布外推理能力
ProRL是如何提升模型在处理分布外(即非训练数据分布)任务时的普遍适用性的?
探究延长并增强学习训练的效果,是否能够有效拓宽模型的推理范围,特别是在处理那些在结构上创新或语义上存在挑战性,且在初始训练过程中未曾遇到过的新任务时?
本研究旨在独立分析长期RL更新所带来的影响,探讨其是否能够帮助模型掌握更高级、更广泛的推理方法,进而使得模型在面临新任务时依然能够表现出色。这一过程是检验ProRL是否拥有“超越经验学习”能力的关键标准。
分布外(OOD)任务评估
Reasoning Gym平台中选择了boxnet任务进行测试,这一任务在训练过程中未曾出现,旨在检验模型在全新任务上的泛化性能。
如图5所示:
在深入对比了中期RL的检查点与最终经过延长训练的模型后,研究者观察到,随着训练进程的推进,该模型在boxnet领域的表现呈现出持续上升的趋势,并且这一提升在各个pass@k的指标值上均有体现。
这一发现有力地证明了以下观点:ProRL不仅能够增强模型在已知任务上的表现,而且还推动模型将抽象的推理模式内化,使其具备了超出具体训练数据和任务复杂度的广泛适用性。
难度提升下的泛化能力评估
研究者在graph_color任务上对模型进行了深入分析,考察了其在不同难度级别任务中的表现情况。
具体做法是通过生成不同节点数的图结构问题来调节任务难度:
图6呈现了不同模型在不同图规模中的性能表现(其中pass@1用实线表示,pass@128则以虚线标注)。观察发现:
这一发现表明:
训练过程中pass@1分布如何演化?
已有研究表明:
与先前研究中发现的在训练阶段pass@k指标随时间逐渐降低的现象有所差异,本实验的成果(如图1所示)表明:
ProRL方法在多个任务上带来了显著的性能提升。
图7(a)和图7(b)中呈现了代码编写任务与逻辑谜题挑战中,pass@1指标随时间推移的变动情况。
具体案例:
这些明显的分布变化由延长RL训练驱动,说明:
ProRL不仅显著提升了平均通过率,而且能有效抵消训练过程中可能出现的输出波动,进而全面提高pass@k的最高值,促使推理性能实现质的飞跃。
作者简介
刘明杰,目前担任英伟达的研究科学家职务,他的研究工作主要集中在电子设计自动化(EDA)领域的尖端技术探索。
他的研究兴趣主要集中在以下领域:人工智能与机器学习技术,以及模拟和混合信号集成电路的设计与应用。
他在2022年成功取得了德克萨斯大学奥斯汀分校,即UT-Austin,授予的电子与计算机工程领域的博士学位。
在2018年,他获得密歇根大学电子与计算机工程硕士学位。
2012年-2016年,他就读于北京大学微电子专业。
参考资料:
禁止对专有名词进行篡改,同时需确保原文中的专业术语不被替换,对原文的句子结构和用词进行必要的调整和丰富,力求在最大程度上避免与原文的相似性,同时保留其核心意义。在改写过程中,应将较长的句子拆分为若干个较短的分句,并用逗号进行分隔,确保不遗漏任何原有句子的标点符号。
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.