您当前的位置：首页 > 职场资讯 > 职场攻略

北大校友万字长文谈测试时计算与思维链，如何提升模型性能？

来源：网络整理 时间：2025-05-18 作者：佚名 浏览量：

_翁wen_翁万康书法作品

金磊发自凹非寺

量子位 | 公众号 QbitAI

《Why We Think》。

这便是北大校友、前OpenAI华人副总裁翁荔所推出的最新一篇长达万言的论文——

针对“测试阶段计算”以及“思维链”这两个概念，文章深入探讨了如何运用这些技术手段来显著增强模型的性能表现。

翁荔表示：

网友们看罢，纷纷打出了“精彩”二字：

那么接下来，我们就来深入了解一下这篇文章。

动机

让模型思考更长的时间可以通过几种不同的方式来激发。

心理学类比

核心思想与人类思考方式深度关联。

人类在短时间内难以直接计算出“12345乘以56789的结果”，这需要一定的分析过程——这一点正是Daniel Kahneman在其著作《思考，快与慢》（2013年出版）中阐述的双系统理论所强调的。

系统1思维的特点在于其迅速且简便，然而，这种思维方式往往在追求速度的同时牺牲了准确性与逻辑性，因而常常成为我们决策过程中的主导力量。这种思维模式天生倾向于依赖大脑中的思维捷径，也就是所谓的启发式，而这种依赖有时会导致错误判断和认知偏差。

通过有意降低行进节奏，投入更多精力进行深思熟虑、优化调整以及深入剖析，我们得以步入系统2的思考模式，从而对抗自身的直觉，作出更加理智的抉择。

作为资源的计算

深度学习领域存在一种看法，即神经网络之所以独特，在于其具备通过前向传递方式来获取计算量和存储能力的特性；若我们针对它们进行梯度下降的优化处理，那么这一过程将揭示如何高效利用这些资源——具体而言，它将揭示如何将这些资源巧妙地编排成计算与信息存储的电路。

从这个视角出发，若我们构建的体系或框架在测试阶段能执行更多计算任务，并且经过训练能够高效运用这些资源，那么其表现将更为出色。

在Transformer模型中，针对每个生成的令牌，模型所需的计算量（flops）大致是参数总数的两倍。而对于诸如混合专家（MoE）之类的稀疏模型，在每次前向传播过程中，仅启用了一部分参数。因此，计算量可以表示为2乘以参数数除以稀疏度，这里的稀疏度指的是活跃专家所占的比例。

另一方面，CoT技术使得模型在针对每个答案令牌进行计算时，能够进行更为深入的处理。实际上，CoT具备一项显著优势，即它能够让模型根据问题的复杂程度灵活调整所需的计算力度。

潜变量建模

经典机器学习技术借助潜变量z与观测到的变量y来构建概率模型，其中变量y代表已知的观测数据。通过边缘化（即进行求和运算）处理潜变量，可以推导出可见变量y的复杂概率分布。

例如，若以x代表数学问题，y标识正确解，z指代解题步骤，那么我们所需优化的边界概率便是：

这一视角特别有助于我们深入理解多并行CoT采样或搜索算法——这些算法本质上是从后验分布P(z∣x,y)中抽取样本的过程。此外，它还强调了优化对数损失log⁡P(y∣x)的重要性，因为这一优化在预训练阶段的表现尤为突出。

基于Token的思考

Ling等人于2017年首次在AQUA-RAT数据集中尝试为数学问题构建中间步骤，随后Cobbe等人于2021年在GSM数据集中对该方法进行了拓展。

他们采用监督学习的方式，对生成器（其运作原理模拟人工解题步骤）进行训练，并对验证器（用于判定答案准确性）进行验证。在2021年，Nye等人尝试性地引入了类似“草稿纸”的中间token，而到了2022年，Wei等人则提出了标准术语思维链（CoT）的概念。

早期改进CoT的方法包括：

后续的研究发现，对于那些能够自动核验答案的数据集，比如科学、技术、工程和数学领域的题目，或者是附有单元测试的编程题目，采用强化学习的方法，能够显著提升CoT推理的水平。

DeepSeek-AI（2025）发布的R1技术报告使得这一方法备受瞩目，报告指出，即便是简单的策略梯度算法，也能展现出卓越的性能。

思维链的提示有助于提升解决数学问题的成功率。随着模型规模的增大，思考时间的回报愈发明显。

分支与编辑

测试的根本目标在于调整模型在推理阶段输出的概率分布。关键手段涵盖：

并行采样技术操作简便、一目了然、便于实施，然而，它的发展受到能否一次性准确求解问题的模型性能所制约。

模型需遵循序列的明确指示进行错误反思，然而，这一过程速度较慢，执行时必须特别谨慎，因为确实存在将正确预测误改为错误或引入其他类型幻觉的风险。

这两种方法可以同时运用。Snell等人（2024）的研究指出，对于简单的问题，采用纯粹的顺序测试时间计算能够带来益处；而对于复杂问题，顺序与并行计算的最佳组合比例往往能带来更佳的表现。

并行采样与顺序修订的图解。

并行采样

在确定了生成模型以及适用于评估完整或部分样本的评分机制之后，我们可以运用多样化的搜索策略，以探寻那些得分较高的样本。

在众多算法中，最为简便的是N选一（又称最佳选择N）：只需搜集N个相互独立的样本，随后依据评分准则挑选出其中评分最高的一个样本。

束搜索算法属于一种较为复杂的搜索技术，它能够根据实际情况，智能地将更多的计算资源合理地分配至解空间中那些具有较高潜力的区域，以此达到优化搜索流程的目的。

束搜索通过维护一组有潜力的部分序列，交替执行以下操作：

扩展：对候选序列进行延续生成剪枝：淘汰潜力较低的序列

为了实现选择策略，我们可选用过程奖励模型（PRM，由Lightman等人于2023年提出）来引导束搜索中候选解的挑选过程。

Xie等人在2023年的研究中提出了一种新方法，该方法让大型语言模型通过选择题的形式对自己生成的推理步骤进行自我评估。研究发现，这种逐步的自我评估机制在束搜索解码过程中能够有效降低多步推理误差的累积。

此外，在采样环节中，通过调整退火温度，可以有效减少随机性带来的不良影响。根据Codex模型的实验结果，这一方法在GSM8k、AQuA以及StrategyQA等小样本测试基准上，成功实现了5-6%的性能增长。

Wu等学者在2025年的研究中，提出了一种名为奖励平衡搜索（REBASE）的方法。该方法独立训练了PRM模型，并依据softmax归一化后的奖励分数，对束搜索过程中每个节点在不同深度下的扩展范围进行动态调整。

江等人（2024）所研制的RATIONALYST系统特别致力于：依托海量的未标注数据进行推理依据的构建，并依照以下准则来挑选出高质量的依据：

在将推理依据融入语境之后，判断真实答案的token负对数概率是否明显减小，这一判断需依据预设的阈值进行。

在推理过程中，RATIONALYST对思维链生成器实施监督，主要采取以下两种途径：

隐式指导，它有助于评估后续推理步骤的概率；显式指导，则直接提供后续推理步骤的提示。

有趣之处在于，即便缺乏具体的零样本或少量样本的提示，仍能激发出一系列的思维链推理过程。

王和周（2024）的研究表明，若在首个采样token阶段保留置信度最高的前k个备选方案（该置信度基于采样时top-1与top-2备选方案之间的差异值进行评估），并采用贪婪解码方法延续这些采样过程，则模型在多数情况下能够自发构建思维链。

当上下文中确实存在思维链条时，得出的最终答案的可靠性显著增强。为了确定最终答案的可靠性，我们必须采用针对特定任务的设计启发式方法——例如，在解决数学问题时提取最后一个数字——或者借助“因此答案是”等提示来缩小答案的可能范围。

之所以该设计仅于首个token进行分支，其原因是研究揭示：在初期阶段进行分支操作能够显著提升潜在路径的丰富性，然而后续的token则很大程度上受到先前序列的制约。

顺序修订

若模型具备自我反思和纠正先前反馈中不当之处的能力，从理论上讲，它应当能够持续产出质量不断提高的修正序列。

然而，研究显示，大型语言模型（LLMs）实际上并不具备此类自我纠错的功能，且在直接投入使用时，往往会遭遇各种问题，诸如：

幻觉现象包括将正确答案误判为错误，以及行为退化至未修正状态，比如对初始错误答案只是进行细微调整或者完全不进行修正；同时，这种情况下系统难以应对测试过程中的分布偏差。Huang等人在2024年的实验中证明，仅通过自我修正简单操作会导致性能的降低，要想实现有效的性能提升，则必须借助外部反馈机制。

这些反馈可依据以下要点进行评估：是否与真实答案相符、依据启发式规则及针对特定任务的指标、编程问题的单元测试成效（Shinn等人，2023年研究）、更优模型的指导建议（Zhang等人，2024年研究），以及来自人类的评价反馈（Liu等人，2023年研究）。

韦莱克等人在2023年提出的自我修正学习，是在一个既定的生成模型P0(y0∣x)基础上，致力于培养一个修正模型Pθ(y∣y0,x)。构建的模型具备广泛的适用性，而针对特定任务的模型则具有针对性，且其生成过程需基于初始模型的输出以及额外的信息输入，如简短的评价、代码调试信息、单元测试成效等，这些反馈信息是可选的。

自我修正学习过程首先对数据集中的每个提示信息生成多份响应；接着，若同一提示下的两个响应中，一个的评分高于另一个，便将它们配对，构成价值提升对（提示x，假设y，修正y'）；这些配对会根据价值提升量v(y')−v(y)和两个响应间的相似度Similarity(y,y')进行比例筛选，用于训练修正模型；同时，为了激发探索性，修正模型还会向数据集额外提供新的生成结果。在推理阶段，修正模型可以迭代使用，以创建顺序修正的轨迹。

Qu等人（2024）所提出的审查方法在追求提升修正模型性能方面与之前的研究目标一致，独特之处在于，它通过一个模型实现了生成和自我修正的双重任务。

Kumar等研究者于2024年提出的SCoRe（通过强化学习实现自我校正）系统，运用了多轮次的强化学习策略。该系统旨在通过激励模型在第二次尝试中生成比首次更优的答案，以此达到自我修正的目的。此框架由两个主要训练阶段构成：

在第一阶段，我们专注于提升第二次尝试的精确度，并且对第一次尝试施加了KL散度的惩罚措施，这样做是为了避免初始的反馈结果与基础模型的行为特征相差太远；进入第二阶段，我们将第一次和第二次尝试的反馈准确度进行综合优化。

在理论层面，我们期待在两个阶段均能观察到响应质量的显著提高。第一阶段的设计巧妙地避免了模型仅对初始响应进行细微调整或完全不进行修正的“行为坍缩”问题，而第二阶段的实施则在此基础上，进一步增强了整体的修正效果。

因为博客篇幅较长，所以后续部分只是对其核心内容进行了简要的呈现；如需获取更详尽的了解，请查阅文末提供的原始链接。

强化学习与外部工具整合

RL for推理：

外部工具：

思维忠实性与优化压力

忠实性验证：

奖励破解风险：

连续空间思维与架构创新

循环架构：

思维标记技术：

缩放规律与未来方向

计算效率：

未来挑战：

参考链接：

[1]

[2]

上一篇：三伏天广州高温持续，生食受追捧，生吃下一篇：电子科技大学郭光灿团队周强课题组首次

北大校友万字长文谈测试时计算与思维链，如何提升模型性能？

用微信扫一扫