近期在arxiv上备受关注的热门论文,由Qwen与清华大学LeapLab团队共同取得的最新研究成果:
在提升大模型推理性能的强化学习训练过程中,仅需20%的高熵token便足以支撑起训练的整体效果,其效果甚至超越了使用全部token进行训练的情况。
该团队凭借这一发现,在Qwen3-32B模型上实现了新的里程碑:在AIME’24竞赛中取得了63.5分的高分,而在AIME’25竞赛中则达到了56.7分的优异成绩。
这是600B参数以下直接从base模型训练的最高分。
响应的最大长度从原来的20k提升至29k,而在AIME’24竞赛中,得分更是实现了显著增长,达到了68.1分。
经典的二八法则,亦称帕累托法则,揭示了一个普遍现象:大多数情况下,80%的成果是由20%的核心要素所推动。然而,这并不意味着剩余的80%可以随意忽略,它们同样至关重要。
然而,在大型模型的强化学习领域,那些低熵的80%的token不仅能够被舍弃,而且还有可能带来不良影响,因此,这篇论文被赋予了“超越二八定律”这一名称。
此外,团队针对token熵这一维度,深入分析了强化学习对语言模型的主要作用,并且对强化学习与基于监督的微调技术进行了对比,探讨了语言模型在强化学习中的独特之处,同时,也指出了clip-higher方法相较于熵奖励在性能上的优越性。
揭开Chain-of-Thought的熵分布密码
要理解这项研究,需要先从一个有趣的观察说起:
团队观察到,在大型模型进行链式思维推理的过程中,其token的熵值分布展现出一种特有的规律:绝大多数token的熵值较低,而仅有少数token展现出较高的熵值特点。
具体来看,有超过一半的token的熵值小于0.01,与此同时,仅有20%的token的熵值超过了0.672。
更有趣味的是,这些具有高熵特性的token与低熵token在功能上存在根本差异。高熵token往往充当“逻辑纽带”的角色,例如“等待”、“然而”、“因此”等词汇,它们在推理过程中承担着转折、递进或因果关系的连接功能。
在数学的推导过程中,“假设”、“假定”、“已知”等用于提出假设或条件的词汇,均被归类为高熵token。相对而言,低熵token通常由词缀、代码片段或是数学表达式的构成要素组成,它们的特点是具有较高的确定性。
团队将这些高熵token形象地命名为分叉token,若将思维链比喻为行走在山路上,那么高熵token就如同分叉路口,它影响着我们接下来的前行方向;而低熵token则像是位于山与悬崖之间的小径,我们只能沿着既定的路径继续前行。
为了测试这些分支token的重要性,研究团队额外安排了一项实验:他们为各种token分配了不同的解码温度参数。
研究发现,对高熵token进行适度的升温处理有助于提升推理效果,相反,若降低其温度,推理性能则会受到影响。这一发现进一步强调了维持这些关键位置高熵状态对于推理至关重要的意义。
只用20%的token,效果反而更好
既然我们已识别出这些特定token的分叉特性,那么在强化学习的过程中,若仅专注于这些关键的少数token,其结果又将如何呢?
在RLVR(可验证奖励的强化学习)的训练过程中,仅选取熵值最高的20%的token作为策略梯度的参考,而将剩余的80%梯度进行屏蔽处理。
在Qwen3-32B模型上,该技术非但未削弱性能,反而实现了显著的性能增长:AIME’24的得分提高了7.71分,AIME’25的得分提升了11.04分,平均响应长度也相应增加了大约1378个token。
Qwen3-14B同样展现出了类似的性能提升,同时,即便是在体积更小的Qwen3-8B上,其性能表现依旧保持在了稳定水平。

更有意思的是,在反向实验中我们发现,仅使用80%的低熵token进行训练,模型的性能便出现了显著下滑。
这表明低熵token对于推理能力的增强影响极小,有时甚至可能产生不利影响。
团队经过分析指出,这种现象或许与路径的搜寻过程相关。高熵的token因其不可预测性,有助于模型去发现多样化的推理途径。相对而言,低熵的token确定性过高,可能会对模型的探索潜力造成一定的束缚。
在训练过程中观察到的整体熵值变化同样揭示了某些信息:当采用20%的高熵token进行训练时,模型的整体熵值维持在一个较高水平;然而,若采用所有token或仅使用低熵token进行训练,整体熵值则会相应降低。
这一关键发现表明,该方法的规模效应显著:模型规模越大,仅通过高熵token进行训练所带来的优势就越为突出。在32B模型中,这种提升尤为显著,其次是14B模型,而8B模型的提升则相对较小。这种现象可能是因为规模更大的模型具备更强大的能力,能够更好地利用增强的探索性。
格外令人振奋的是,此方法培育出的模型在跨领域任务中同样表现出色。该团队在数学数据集上所训练的模型,即便是在编程挑战LiveCodeBench中进行测试,仅凭20%的高熵token进行训练,其表现也显著优于完全使用所有token训练的版本。
这一迹象表明,高熵token或许与模型在泛化方面的能力有着紧密的联系。当模型集中关注这些关键的决策节点时,它所习得的很可能是更为根本的推理方式,而非仅仅是特定领域知识的机械记忆。
重新理解大模型强化学习
这项研究的价值不仅体现在提高训练的效率上,经过对RLVR(可验证奖励的强化学习)训练过程的深入分析,研究团队揭示了一个令人惊讶的发现:RLVR并非是完全从零开始,而是在基础模型的基础上进行了细致的优化调整。
在追踪训练过程中熵模式的变化过程中,我们观察到即便是在训练达到收敛状态(具体到第1360步),模型在具有高熵的token位置上与base model的重叠比率依旧维持在86.67%及以上。这一发现表明,RLVR在本质上保持了预训练模型对于“何时应犹豫、何时应果断”的决策能力。
更有趣的是,RLVR的调整策略极其“倾斜”。经过团队对训练前后不同熵水平token的变化进行计算,他们揭示了一条明显的规律:,
在RLVR训练过程中,那些初始熵值较高的token,其熵值增幅显著。与此同时,那些本身熵值就较低的、确定性较高的token,在整个训练阶段几乎保持不变。
在熵的百分位变化图中,我们可以观察到,对于高熵的token(例如90%、95%的分位数),其在训练过程中的波动幅度相对较大;相反,对于低熵token(例如0%、5%的分位数),其变化几乎可以忽略不计。
最后,基于以上所有这些发现,团队还提出了几个有趣的讨论:
讨论一:高熵token或许是阐明强化学习为何能够实现泛化,而监督微调则更易陷入记忆依赖并导致过拟合现象的核心因素。
强化学习倾向于保持甚至提升分叉token的熵值,以此确保推理路径的灵活性。与此同时,监督微调会将输出logits引导至one-hot分布,这会导致分叉token的熵值下降,进而丧失推理路径的灵活性。这种灵活性或许是推理模型能够有效推广至未见过任务的核心要素。
在讨论2中,相较于传统的强化学习,大模型的推理过程要求融合先验知识,并且必须产生易于理解的输出。因此,大模型思维链(CoT)中,多数标记具有较低的熵值,而少数标记则具有较高的熵值;与此同时,传统强化学习则可以假定在整个动作过程中,熵值的分布是相对均匀的。
在强化学习与可验证奖励算法(RLVR)的研究中,熵奖励(entropy bonus)并非一定是最佳选择,原因在于它会导致低熵多数标记的熵值增加。与此相对,clip-higher方法则能够显著提高高熵少数标记的熵值。
论文
此链接指向的文献禁止对专有名词进行修改,且不得插入英文单词,改写后的内容需保持与原文风格一致,同时需将较长的句子拆分为若干短句,并用逗号分隔,确保不遗漏任何句尾标点。
项目主页
请勿访问该网址,该页面涉及的内容为禁止修改的专有信息。
Copyright C 2018 All Rights Reserved 版权所有 聚贤人力 皖ICP备20008326号-40
地址:安徽省合肥市高新技术开发区人力资源产业园 EMAIL:qlwl@foxmail.com
Powered by PHPYun.