智能配送设备 发表于 2025-2-10 16:19:54

人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率

<div id="container" data-v-1d7a5742="" data-element="root" contentScore="14019">在大语言模型(LLMs)的发展历程中, Scaling Laws 一直是推动性能提升的核心策略。研究表明,随着模型规模和训练数据的增长,LLMs 的表现会不断优化 。然而,随着训练阶段规模的进一步扩大,性能提升的边际收益逐渐减小,训练更强大的模型需要巨额投入。因此,研究重点逐渐从训练阶段的扩展转向推理阶段的扩展 ,探索在不增加模型参数量的情况下,如何提升推理质量。
「慢思考」(Slow-Thinking),也被称为测试时扩展(Test-Time Scaling),成为提升 LLM 推理能力的新方向。近年来,OpenAI 的 o1 、DeepSeek 的 R1 以及 Qwen 的 QwQ 等顶尖推理大模型的发布,进一步印证了推理过程的扩展是优化 LLM 逻辑能力的有效路径。研究发现,增加推理时间能够显著提升 LLM 的推理质量 ,这一发现推动了对 「慢思考」方法的深入研究。
「慢思考」主要可以分为内部慢思考(Internal Slow-Thinking) 和 外部慢思考(External Slow-Thinking) 两种方式:

[*]内部慢思考:通过额外的训练,使模型在专门的推理任务上优化参数,提升自身的推理深度和输出质量。
[*]外部慢思考:不改变模型本身,而是增加计算开销,例如通过多次采样、重新生成答案等方式延长推理过程,从而提高推理的准确性和可靠性。
本文主要关注外部慢思考。在面对复杂问题时,人类往往会花费额外的时间思考和完善推理的中间过程,以提高准确性。外部慢思考受这一认知过程的启发,通过增加推理步骤来提升大语言模型的推理质量 。例如,BoN(Best-of-N)方法会生成多个答案,并通过多数投票或排序等策略选出最优解 。此外,更前沿的框架 如思维链(CoT)、思维树(ToT) 以及借鉴 AlphaGo 蒙特卡洛树搜索(MCTS) 的方法,能够在树状结构中探索解答空间,寻找更优的答案 。
然而,尽管外部慢思考方法展现出提升推理质量的潜力,但仍面临两大核心挑战:

[*]缺乏理论支撑:目前,我们对这些方法为何有效的理解仍然有限,这阻碍了更先进策略的设计。
[*]计算资源需求高:复杂的慢思考技术往往需要大量计算资源,且优化设计参数的难度较大,导致实际应用中的表现不尽如人意。
针对这些挑战,研究者提出了一种基于信息论的系统性框架,建立外部慢思考方法与 LLM 生成正确推理的概率之间的联系。随着「慢思考」方法的深入探索,LLM 发展新的转折点正在到来。未来,大模型的推理能力优化不再局限于扩大模型规模,而是通过优化推理过程,实现更智能、更精准的逻辑推理。本研究将深入剖析外部慢思考策略的理论基础、机制解析以及其对 LLM 推理能力的影响,为人工智能推理能力的进一步突破提供新的方向。


[*]论文标题:Rethinking External Slow-Thinking: From Snowball Errors to Probability of Correct Reasoning
[*]论文链接:http://arxiv.org/abs/2501.15602
此工作主要作出了如下贡献:

[*]分析了 LLM 推理过程中的雪球误差效应,并证明该效应会导致推理错误概率随推理路径的增长而上升,强调了慢思考策略在减少错误中的关键作用。
[*]提出了一种基于信息论的系统性框架,建立外部慢思考方法与推理正确概率之间的数学联系,为理解慢思考策略的有效性提供理论支撑。
[*]对比了不同的外部慢思考方法,包括 BoN 和 MCTS 等,揭示它们在推理能力提升方面的差异与内在联系。
1 大模型推理过程中的「雪球误差」

想象一下,在冬天的雪地上滚动一个雪球。随着滚动的距离增加,雪球会以越来越快的速度变大,这就是雪球效应(Snowball Effect)—— 小的变化会随着时间推移不断累积,最终带来显著影响。
在大规模语言模型(LLMs)中,这一效应最初体现在自回归式(Auto-Regressive) 的 Next-Token Prediction(NTP)任务中,微小的 token 级错误会不断累积,最终导致模型生成的答案偏离预期的正确答案 。然而,在更复杂的推理任务中,这种错误不再仅限于 token 级,而是扩展到句子级,使得推理偏差更加难以衡量和控制。
为什么推理偏差会逐步放大?
研究表明,LLM 的推理过程可以看作是逐步执行一系列原始任务(Primitive Tasks),每一步的推理结果都依赖于前面的输出。因此,任何早期的微小误差都会在推理链条中不断放大,最终导致模型偏离正确答案。
为了更直观地理解这一现象,研究者借助柏拉图的「洞穴寓言」(Plato’s Allegory of the Cave)。在这个寓言中,人们只能看到投射在墙上的影子,而无法直接感知真实世界,类似于 LLM 只能从训练数据中学习世界的「投影」。如图 1 (a) 所示,训练数据只是现实世界的映射,而 LLM 生成的推理结果正如图 1 (b) 所示,仅是其内部推理过程的「影子」。

图表 1: 大模型推理过程的柏拉图假设
换句话说,模型的推理输出并非直接反映其思维过程,而是受限于它从训练数据中学到的模式和误差,导致滚雪球效应的持续累积。


例如:在 LLM 执行数学推理任务时,例如解答「计算 3x + 2y」,模型并不是直接给出答案,而是隐式地执行一系列推理步骤:


t₁: 计算 3x → t₂: 计算 2y → t₃: 将 3x 和 2y 相加。


然而,这些推理步骤是抽象的、不可直接观察的,模型的最终输出是这些推理过程的不同表达方式。例如,输出序列 r₁ → r₂ → r₃ 可能有多种不同的表达形式,但它们并不一定能完全还原对应的推理步骤 t₁ → t₂ → t₃。


由于单个输出 r_l 无法完全表达对应的推理步骤 t_l,即使初始误差微小,也会随着推理链条的延续逐步放大,最终导致严重的推理偏差。这种误差的积累,正是雪球效应在推理任务中的典型体现。
在 LLM 推理过程中,雪球误差会导致模型的推理结果逐步偏离正确答案。为了精准衡量这一误差,本研究引入互信息(Mutual Information, MI)这一数学工具,来量化隐式推理序列 t 与最终生成的回复序列 r 之间的共享信息量,记作 I (t; r)。这一度量帮助评估模型在推理过程中能够保留多少关键信息。
具体而言,在每个推理步骤中,模型的输出可能存在细微偏差,这些误差会逐步累积并导致信息损失。研究者将信息损失定义为互信息 I (t; r) 与隐式推理过程的信息熵 H (t) 之间的差值:

而最终的雪球误差则可以定义为在所有推理步骤上信息损失的累积:

2 从「雪球误差」到推理错误的概率

在 LLM 的推理过程中,推理路径越长,雪球误差就会不断累积,最终导致严重的事实偏差,研究者将其定义为推理错误(Reasoning Errors)。
如何衡量推理错误?
为了准确评估推理错误,研究者首先需要清晰地定义它。由于每个输出 r_l 代表隐式推理步骤 t_l,研究者通过检查是否存在一个足够强大的映射函数 f  来从 r_l 还原 t_l。如果这种还原能力较弱,说明推理过程中信息损失较大,进而导致了推理错误的发生。具体而言,研究者将「推理错误」这一事件刻画如下:

为了更准确地估计 LLM 发生推理错误的概率,本研究提出使用信息论方法,建立雪球误差与推理错误发生概率之间的数学联系。研究者从一个关键引理出发,通过理论推导揭示滚雪球误差如何逐步积累,并最终影响模型的推理准确性。

基于此引理,研究者可以推导出推理错误发生概率的下界:


此定理表明,在推理的第 l 步,错误概率的下界受<strong>累积信息损失 H_(
页: [1]
查看完整版本: 人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率