IT之家于6月5日传来消息,科技媒体marktechpost在6月4日发布了一篇博文,文中提到英伟达推出了名为ProRL的强化学习方法,并且研发出了参数数量达到1.5亿的全球最顶尖推理模型。
Nemotron-Research的Reasoning-Qwen版本,最新迭代为1.5B。
背景简介
推理模型属于一种特定的人工智能系统,它通过详尽的长链推理(Chain of Thought,CoT)步骤,最终得出答案。
强化学习在训练过程中具有举足轻重的地位,DeepSeek与Kimi等研究团队采纳了可验证奖励的强化学习(RLVR)技术,进而推广了GRPO、Mirror Descent以及RLOO等多种算法。
然而,研究者们对于强化学习是否确实增强了大型语言模型(LLM)的推理能力仍存在分歧。目前的数据显示,在pass@k这一指标上,强化学习模型并未明显超越基础模型,这反映出推理能力的提升存在局限。
此外,目前的研究普遍聚焦在数学等特定学科,模型往往经历过度训练,这限制了其探索能力的发挥;与此同时,训练的步数通常只有数百步,未能使模型充分培养出新的能力。
ProRL 方法的突破与应用

为了解决这些问题,英伟达的研究团队研发了ProRL方法,显著增加了强化学习训练的步数,使其超过了2000步。同时,他们还将训练数据范围扩大到了数学、编程、STEM教育、逻辑谜题以及指令遵循等多个领域,总计涵盖了13.6万个样本。
他们采用 verl 框架和改进的 GRPO 方法,开发出
Nemotron-Research开发的Reasoning-Qwen-1.5B模型。
这款模型是全球最顶尖的1.5亿参数推理系统,其在众多基准测试中均超越了DeepSeek-R1-1.5B基础模型,并且其性能甚至超越了参数量更大的DeepSeek-R1-7B模型。
测试结果显示,该模型在数学领域实现了平均15.7%的进步,编程任务的pass@1准确率提高了14.4%,STEM推理能力增长了25.9%,指令遵循能力提升了22.0%,逻辑谜题的奖励值增加了54.8%,充分体现了其卓越的泛化性能。
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.