论文精读：突破大模型推理瓶颈：为什么“限制自信”反而能让 AI 更聪明？

news2026/4/8 4:28:22

论文下载地址https://arxiv.org/pdf/2502.07154随着 OpenAI o1 等推理模型的爆火AI 行业正在经历一场深刻的范式转移从单纯依赖“扩大训练规模Training-Time Scaling”正式步入“扩大测试期计算Test-Time Compute”的新时代。我们开始允许大模型在给出最终答案前“多想一会儿”、“多打几次草稿”。然而当你试图将传统的微调方法SFT与强大的测试期计算结合时一个极其反直觉的“幽灵”出现了模型微调得越久它在多次尝试和深度思考时的表现反而越差昨天我们讲解了关于测试时计算的论文今天我们更进一步来探讨这篇论文。这篇论文《Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning》发表在NeurIPS 2025探讨了当前大语言模型LLM领域非常前沿且关键的一个问题在不断扩大“测试期计算Test-Time Compute”的背景下传统的微调方法是否还适用第一章背景与基石 (Background Foundations)要理解这篇论文为什么重要我们首先需要理解当前大语言模型LLM的两个核心运作阶段训练期模型学习知识和测试期模型回答问题。传统的微调思维一直关注前者而这篇论文则要求我们将目光转向后者。1.1 范式转移什么是“测试期计算” (Test-Time Compute, TTC)在过去几年里AI 领域有一个著名的“Scaling Laws缩放定律”只要增加训练数据和训练时的算力模型就会变得更聪明。但这属于“训练期计算”。那么什么是“测试期计算 (Test-Time Compute)” 简单来说它指的是在模型已经训练好之后当用户向它提出一个问题时允许模型消耗多少算力通常体现为生成多少个 token 或进行多少次采样来得出最终答案。一个通俗的比喻人类的两种思考模式System 1 vs System 2低测试期计算就像考试时要求你“脱口而出”。这依赖于你的第一直觉System 1。在 LLM 中这对应着仅生成一次回答即 Greedy Decoding贪婪解码。高测试期计算允许你在草稿纸上反复推演、尝试不同的解题路径、甚至自我纠错最后再交卷System 2。在 LLM 中这对应着让模型生成多条不同的推理路径。随着模型能力的提升研究人员发现在面对复杂的数学推理任务时给模型更多的“思考时间测试期计算”往往比单纯花大价钱去重新训练一个更大的模型要高效得多。1.2 核心测试策略passN 机制解析既然我们允许模型在测试期“多想一会儿”那我们该如何评估它到底做得好不好呢这就引出了数学和代码生成领域最核心的评估指标passN。pass1模型只回答 1 次对了就是对了错了就是错了。这是最严苛的标准。passN给模型 N 次独立作答的机会比如生成 100 条不同的回答。只要这 N次尝试中有至少一次得到了最终的正确答案这道题就算通过。为什么数学推理极其依赖 passN数学问题具有极强的“脆弱性”。一个完美的解题思路可能仅仅因为中间算错了一个加减法例如 236就导致最终答案全盘皆输。如果我们只让模型尝试一次pass1这种偶然的失误是致命的。但是如果我们让模型尝试 100 次pass100由于每次生成的路径略有不同模型很有可能会在其中某几次尝试中避开那个愚蠢的计算错误从而成功抵达终点。核心结论扩大“测试期计算”在当下最直接的应用方式就是增大N的值利用 passN 策略来榨取模型的潜力。而这种潜力的核心来源是——模型输出的“多样性 (Diversity)”。1.3 传统微调的运作原理与盲区了解了测试期的玩法我们再回头看看训练期。为了让预训练模型掌握解决特定数学题的能力我们通常会进行监督微调 (Supervised Fine-Tuning, SFT)。传统 SFT 是如何工作的我们会给模型喂入大量的“问题-标准答案”对。在底层算法上SFT 使用的是交叉熵损失函数 (Cross-Entropy Loss, CE Loss)。交叉熵的任务非常明确它会比较模型当前的输出概率和人类给定的“标准答案”并严厉地惩罚模型迫使模型将产生“标准答案”的概率推向 100%。业界的默认假设也就是盲区所在一直以来无论是研究者还是工程师都抱有一个朴素的信念损失函数 (Loss) 越低模型的准确率就越高微调的步数越多模型对这个任务就越熟练。在这种假设下大家理所当然地认为一个经过充分微调、在 pass1 上表现极佳的模型把它放到 pass100 的测试环境中表现理应更加无敌。然而这篇论文正是从这里撕开了一道裂缝传统微调交叉熵的目标是“唯一且绝对的正确”这实际上是在抹杀其他的可能性。当我们把这种追求“单次绝对正确”的方法强行应用到需要“多次尝试、探索多样性”的 passN 场景时灾难就发生了。这就好比你训练一个学生要求他把标准答案一字不差地背下来交叉熵。当面对常规考试pass1时他能拿满分但当遇到需要发散思维、尝试不同解法的难题passN时他脑子里只有死记硬背的那一条路一旦那条路走不通他就彻底束手无策了。这就是微调阶段和测试阶段产生“错位”的根本背景。当两者目标不一致时会发生怎样反直觉的现象请看下一章。第二章发现悖论——微调与推理的“错位” (The Misalignment)在科学研究中最有趣的往往是那些“反直觉”的现象。这篇论文的起点正是研究人员在实验图表上发现了一条本不该下降的曲线。2.1 一个反直觉的现象设想你正在训练一个大语言模型来解奥数题。你手头有一批高质量的解题步骤数据你开始对模型进行监督微调SFT。按照我们上一章提到的传统假设微调的步数越多模型对这批数据学得越透彻它的解题能力应该越强。研究人员在测试时分别记录了模型在两种情况下的表现低测试期计算 (pass1)只让模型回答1次。高测试期计算 (pass100)让模型独立生成100次不同的回答对一次就算赢。实验结果令人大跌眼镜对于pass1随着训练步数的增加准确率稳步上升最后趋于平缓。这完全符合预期。对于pass100随着训练步数的增加准确率在初期确实跟着上升了但是当训练越过某一个临界点后准确率竟然开始明显下降如果你把横坐标设为“微调步数”纵坐标设为“准确率”你会看到 pass100 的表现呈现出一条清晰的“倒U型”曲线。这意味着什么这意味着模型“学得太久”反而损害了它在经过充分思考多次采样后解决问题的能力。投入了更多的训练算力又投入了更多的测试算力结果却变差了。这就是这篇论文揭示的核心悖论。2.2 错位 (Misalignment) 的本质在哪里为什么会出现这种“练得越久错得越多”的诡异现象论文指出这是因为训练期的优化目标与测试期的评估策略之间发生了根本性的“错位 (Misalignment)”。我们可以从以下两个维度来拆解这种错位1. 目标的错位单点极致 vs 多点开花传统微调 (SFT) 的目标是“单点极致”。SFT 背后的交叉熵损失函数是一个极其死板的“严师”。在训练数据中一道题通常只给了一种标准的解题路径。SFT 的任务就是逼迫模型把所有注意力概率权重都集中在这一条路线上。它希望模型在被问到这道题时100% 走这条路。这种策略完美契合 pass1 的测试环境。测试期计算 (passN) 的目标是“多点开花”。当我们允许模型尝试 100 次时我们最不希望看到的就是模型把同一个错误的解法重复 100 遍。我们希望模型能展现出多样性 (Diversity)试一试代数法再试一试几何法或者从不同的中间步骤开始推导。2. 行为的错位复读机 vs 探索者当我们在 SFT 阶段对模型进行过度训练也就是越过那个倒U型的顶点后模型会发生一种微妙的心理变化——它变成了一个极其顽固的“复读机”。在过度训练下模型为了迎合交叉熵损失函数那苛刻的要求会将训练集中出现过的那种解法的生成概率推高到接近 100%。结果就是在测试阶段即便是给它 100 次、1000 次的机会它也会因为“思想过于僵化”而在每一次采样中都生成几乎一模一样的答案。如果这条被它死死记住的路径恰好能解开测试题那自然万事大吉但数学题千变万化一旦测试题与训练题有细微差别这条死记硬背的路径走不通模型就会像无头苍蝇一样在这条死胡同里撞上 100 次。它完全丧失了退一步去探索其他可能性的能力。核心结论传统的监督微调本质上是在压缩模型输出的多样性以提高单次准确率而扩大测试期计算本质上是在利用模型输出的多样性来寻找正确答案。当微调走得太极端时多样性被彻底榨干测试期计算自然也就成了无米之炊。理解了这种“错位”我们就触及了问题的表象。在下一章我们将深入算法底层剖析造成这种多样性丧失的罪魁祸首——交叉熵带来的“过度自信”陷阱。第三章根因深度剖析——“过度自信”的陷阱 (Root Cause: Overconfidence)导致测试期表现崩溃的罪魁祸首隐藏在几乎所有大语言模型都在使用的基础训练标准中交叉熵损失函数 (Cross-Entropy Loss)。3.1 交叉熵 (CE Loss) 的副作用“过度自信”在监督微调 (SFT) 阶段交叉熵的目标非常直接。假设我们有一个输入问题 x标准答案或解题步骤是 y。交叉熵的作用就是让模型在看到 x时生成 y 的概率 P(y|x)尽可能大。其基本的数学表达式可以简化为为了让这个 Loss 变小模型必须不断推高目标词的概率。但这其中隐藏着一个致命的设计缺陷交叉熵是一个“永远无法满足的贪婪者”。即使模型对正确答案的预测概率已经达到了 0.99也就是 99% 确信交叉熵依然不满意。它会继续逼迫模型试图把概率推向 0.999、甚至 0.9999。在语言模型中所有的输出词汇概率加起来必须等于 1。如果模型被逼着把 99.9% 的概率都集中在某一个特定的词或某一条特定的解题路径上那意味着什么意味着其他所有可能的词、所有其他潜在的解题思路其概率都被无情地压缩到了 0.1% 以下。这种现象在机器学习中被称为过度自信 (Overconfidence)。模型对自己的某一种输出产生了极其盲目的、排他性的自信。3.2 多样性 (Diversity) 的丧失过度自信直接宣判了passN策略的死刑。我们在第一章说过passN的精髓在于“多样性”——东方不亮西方亮只要 N条路里有一条能走通就行。但“过度自信”彻底摧毁了这种多样性。健康的概率分布高熵比如模型在面对某一步推理时认为解法 A 有 60% 的概率是对的解法 B 有 40% 的概率也是通的。此时进行多次采样模型会探索这两条路径。过度自信的概率分布低熵在经历了深度的 SFT 后模型被交叉熵洗脑认为解法 A 的正确率是 99.99%解法 B 只有 0.01%。此时你即使给模型 N100次甚至 1000次的采样机会它也会像一个偏执狂一样一次又一次地走上解法 A 的道路。如果解法 A 在面对当前这道与训练集略有不同的测试题时恰好是个死胡同那么模型的 100 次尝试实际上只等价于 1 次尝试。算力的极大浪费投入了巨大的测试期计算资源却没有换来探索空间的扩大仅仅是得到了同一条错误路径的 100个复制品。3.3 训练后期的动态变化分析论文中提出了一个非常深刻的洞察如果你仔细观察训练过程会发现并不是所有的数据都在搞破坏。问题的关键在于训练后期那些“简单样本 (Easy Examples)”开始作恶。在一批训练数据中总有一些题对模型来说是简单的比如它很快就学会了而有些是困难的。训练初期模型还在努力理解题目不管是简单题还是难题都在帮助模型建立初步的逻辑推理能力。此时整体性能无论是单次还是多次采样都在提升。训练后期随着 epoch训练轮数的增加模型对那些“简单题”早已烂熟于心预测概率可能已经达到了 90%。按理说模型这时候应该把精力放在难题上。但是交叉熵不管这些正如我们在 3.1 节所说交叉熵依然在贪婪地压榨这些简单题逼着模型把简单题的预测概率从 90% 往 99.99% 推。论文的核心发现就在于此在训练的后半程这些“简单样本”已经无法再教给模型任何新的推理知识了。它们留在训练池里唯一的反作用就是不断地加剧模型的“过度自信”。它们像毒药一样一点点侵蚀掉模型输出概率的宽泛度。这就是为什么在第二章中当训练步数越过某个临界点后pass100的表现会开始下降。因为在那个临界点之后简单样本带来的“过度自信副作用”已经远远超过了继续训练带来的收益。模型被训练成了一个只会背诵标准答案、失去独立思考和变通能力的机器。走到这里我们已经把病因查得水落石出了传统交叉熵损失函数会导致过度自信过度自信扼杀了多样性多样性的丧失使得扩大测试期计算失去了意义。既然找到了病因我们该如何开出药方在下一章我们将详细拆解论文提出的绝妙破局之法。如果你准备好了请告诉我继续。第四章破局之法——限制置信度的创新损失函数 (The Solution: Limiting Confidence)既然传统交叉熵CE Loss的“无底洞”贪婪本性会导致模型过度自信那么解决思路就很清晰了我们需要给模型“降温”让它懂得知足。4.1 核心思想给模型“降温”在传统的微调中对于训练集里的一个标准答案模型哪怕已经给出了 90% 的概率交叉熵依然会挥舞着鞭子喊“不够我要 99.9%”这篇论文提出的核心思想是“限制置信度 (Limiting Confidence)”。用通俗的话说就是告诉模型“如果你对这个标准答案的把握已经足够大了比如应对接下来的 100 次考试已经绰绰有余那你就停下来保持现状。把你剩下的大脑容量概率空间留给其他可能的解题思路。”这就像是教导一个过于死板的学霸遇到难题时不要把 100% 的精力都死磕在一种解法上觉得这条路有 80% 能通时就分出 20% 的精力去探索一下备用方案。4.2 改进版训练损失直接覆盖优化 (Direct Coverage Optimization, DCO)为了实现上述的“降温”思想论文提出了一种全新的损失函数——直接覆盖优化 (DCO)。这个算法不仅直观而且在数学上极其优美。我们先来看一个简单的概率学常识假设模型单次生成正确答案的概率是 p。传统交叉熵是闭着眼睛死命地把 p往 1 推。现在如果在测试期我们给模型 N 次机会即passN那么它 N次全部答错的概率是因此它在 N次中至少答对一次的概率即 passN 的成功率就是而DCO 的核心逻辑是直接把上面这个公式作为优化的目标DCO 是如何自然限制置信度的我们来算一笔账。假设在测试期 N 100。如果模型训练到某一步单次预测正确率 p 达到了 0.1即 10%。此时模型在pass100测试中成功的概率是。对于 DCO 损失函数来说此时的成功率已经高达 99.997%可以说是完美了。因此DCO 产生的梯度可以理解为对模型的修改力度会瞬间缩小到几乎为零。损失函数停止了对模型的鞭策模型就不会再把从 0.1 继续往上推。剩下的 0.9即 90%的概率空间被完好无损地保留了下来模型可以利用这些空间去生成极其多样的、其他的解题路径。4.3 理论上的对齐 (Alignment)通过将损失函数从“优化单次概率”改为“直接优化 passN 的覆盖率”DCO 完美解决了第二章中提到的“错位”问题。训练与测试的终极统一训练期优化的指标终于和测试期评估的指标变成了同一个东西。兼顾准确与多样DCO 既保证了模型有足够的底气去生成正确的答案因为如果 p太低损失函数还是会发力的又通过“天然的上限”强制模型保持了输出的多样性。第五章实验验证与惊艳结果 (Experiments Results)理论再完美也需要真刀真枪的检验。研究人员将 DCO 算法应用到了当前最具挑战性的数学推理任务中结果证明了这种“限制自信”的方法具有极其强大的威力。5.1 实验舞台复杂的数学推理任务论文选取了两个极具代表性的高难度基准测试MATH 数据集包含了大量极具挑战性的竞赛级数学题。MiniF2F 数据集专门用于评估模型进行形式化数学定理证明Theorem Proving的能力。在这些任务中由于推导步骤极长中间任何一步的微小差错都会导致满盘皆输因此极其依赖passN测试期计算。5.2 核心场景一直接解答数学问题 (Providing Answers)在标准的数学问答测试中研究人员对比了使用“传统交叉熵 (CE)”和“直接覆盖优化 (DCO)”训练出来的模型。惊艳的数据对比当测试期算力拉满例如 N100 或更大时CE 模型的溃败正如之前预测的随着训练步数增加传统 CE 模型出现了典型的“倒U型”崩溃。练得越久多次采样的准确率反而跌得越惨。DCO 模型的复活使用 DCO 训练的模型不仅没有出现崩溃反而随着训练的深入passN的准确率在稳步攀升并最终在一个极高的水平上稳定下来。它完美地接住了测试期算力带来的红利。5.3 核心场景二定理证明与搜索树 (Theorem Proving via Search Trees)论文并没有止步于简单的多次独立采样。在更复杂的定理证明场景中研究人员通常会使用搜索树 (Search Trees)例如让模型一步一步往前推如果发现走不通就退回上一步探索树的其他分支。DCO 在复杂树形搜索中的降维打击在定理证明中模型面临的不仅仅是一次性的回答而是连续不断的步骤选择。过度自信的 CE 模型在面对分支时往往会固执地认为某一条死胡同是 100% 正确的。即使算法强迫它回退它在下一次生成时依然会钻进同一个死胡同。而 DCO 模型因为保留了极高的多样性它在面对数学证明的搜索树时显得极其灵活。当一条路走不通时它能迅速且自然地提出几种截然不同的备选证明步骤大大提升了在广阔的数学搜索空间中找到最终证明的概率。实验证明无论是何种形状的搜索树宽而浅或是窄而深DCO 模型都全面超越了传统微调模型展现出了更强的整体数学推理天花板。稍微扩展一下搜索树我记得我好像没怎么讲过我们将解题过程变成一个树状图根节点 (Root Node)树的起点也就是题目本身或初始的待证明定理。边/分支 (Edges/Branches)模型生成的“下一步操作 (Next Step) ”或“证明策略 (Tactic)”。子节点 (Child Nodes)执行上述操作后得到的新状态比如原方程被化简后的新方程或者定理被拆解后的子目标。在实际代码实现中这通常是一个结合了 LLM 与外部环境如 Lean 定理证明器或 Python 解释器的循环第一步状态展开 (Expansion)面对当前节点当前解题进度系统会调用 LLM要求它一次性生成 k个不同的“下一步可能操作”。这就是 DCO 算法大显身手的地方。如果是传统的 CE 模型因为“过度自信”它生成的这 k 个操作可能全是一模一样的废话而 DCO 模型能真正给出 k个截然不同的有效探索方向。第二步外部环境验证 (Verification)LLM 只负责“猜想”我们需要“验证”。系统会将这 k个操作输入到一个严谨的外部环境中在解答计算题时可能是把中间公式丢进 Python 算一下是否合法。在定理证明MiniF2F中会丢进 Lean 这样的形式化验证语言中。Lean 会告诉你这个操作符合逻辑吗如果符合新的证明状态是什么如果不符合直接把这个分支砍掉剪枝。对于存活下来的有效子节点系统需要决定“接下来先探索哪条路”。这就需要用到搜索算法通常是最佳优先搜索 Best-First Search或类似机制。系统或者让 LLM 自己会对这些子节点的“前途”进行打分——哪个看起来离最终答案更近系统选中当前得分最高的节点重复上述的展开和验证过程。如果在某一条路上一直走发现所有生成的步骤都被外部环境报错走进死胡同系统就会回溯 (Backtrack)——退回到上一个分叉口选择当时得分第二高的分支继续尝试。理解了实现机制你就能更深刻地明白这篇论文的伟大之处如果你用传统的交叉熵 (CE) 去微调模型模型的大脑里只有一条路径。当你在搜索树中要求它生成 k 个分支时它给出的全是 A。系统拿着 A 去验证发现是死胡同让它回退重新生成它生成的还是 A。此时这棵“搜索树”退化成了一根光秃秃的“木棍”完全失去了搜索的意义。而论文中限制了置信度的 DCO 模型它承认自己的不确定性。当它面对分叉口时能自然地给出选项 A、B、C。哪怕 A 和 B 都是死胡同系统也能通过回溯找到 C 并继续推进。假设我们给大模型接上了一个“数学验证器比如 Python 或 Lean 形式化证明系统”验证器就像一个无情的裁判只有大模型输出的这一步在逻辑上绝对正确它才会允许大模型继续往下算如果走不通就会报错并要求大模型“回退”。现在我们要解一道略带陷阱的代数题题目求解方程系统设定在搜索树中每一步允许模型生成3 个不同的探索分支即。场景一传统的 CE 模型经过传统交叉熵CE微调的模型因为“过度自信”在它的“脑子”里遇到一元方程的第一反应绝对是移项。它认为这是 99.9% 应该走的路。第一轮搜索根节点展开面对模型生成了 3 个分支分支 A1系统验证合规生成节点 1分支 A2完全重复被系统丢弃分支 A3完全重复被系统丢弃结果搜索树本该有三个树杈现在变成了一根“光秃秃的树干”。第二轮搜索顺着节点 1 继续面对模型继续生成 3 个分支分支 B1系统验证合规。但其实又绕回去了分支 B2两边同时开平方系统验证合规但这让方程变得更加极其复杂进入了死胡同分支 B3重复结局裁判系统发现模型在绕圈子或者把题目越做越复杂死胡同。系统说“退回上一步换个思路” 但由于 CE 模型极度缺乏多样性它无论被退回多少次吐出的永远是那几个导致死胡同的选项。搜索树彻底瘫痪解题失败。场景二限制置信度的 DCO 模型经过论文中 DCO 算法训练的模型懂得“限制置信度”。它知道移项是一种方法但它也保留了换元法、因式分解等其他策略的概率空间。第一轮搜索根节点展开面对DCO 模型给出了 3 个截然不同的分支分支 A1传统思维移项系统验证合规设为备选节点 1分支 A2降次换元令原方程变为系统验证合规设为备选节点 2分支 A3直接因式分解尝试拆分系统验证合规设为备选节点 3结果搜索树瞬间长出了三条繁茂的树杈第二轮搜索系统裁判进行选择系统裁判或者搜索算法评估了一下这三个节点发现节点 2换元法和节点 3因式分解非常清晰明了看起来离答案更近。假设系统优先顺着节点 2继续探索。面对系统要求 DCO 模型继续走生成下一步因式分解得出或。裁判验证逻辑完美第三轮搜索面对或结合之前的。生成最终步得到 x 1 或 -1得到 x 2 或 -2。裁判验证答案正确成功闭环在真实的定理证明如论文中用到的 MiniF2F 数据集中情况比上面的例子还要复杂千百倍。大模型有时需要输入诸如induction n数学归纳法、simp化简等高级策略。没有 DCO 的树就像一个固执的机器如果simp失败了它还会不断地重试simp直到把测试期的算力比如给定的 100 次机会全部白白耗尽。有了 DCO 的树赋予了系统真正的容错率和纠错能力。此路不通时因为底层算法保留了概率空间模型能迅速抛出 Plan B数学归纳法甚至 Plan C反证法。这就是为什么我们在第五章看到在使用搜索树的情况下DCO 算法能对传统微调模型形成“降维打击”的根本原因。第六章总结与行业启示 (Takeaways Future Implications)《Rethinking Fine-Tuning when Scaling Test-Time Compute》这篇论文的价值绝不仅仅是提出了一个名为 DCO 的新损失函数它更像是在大模型的发展轨道上立起了一块醒目的警告牌并指引了一条全新的道路。6.1 协同设计 (Co-design) 的必然趋势一直以来AI 公司的研发流程往往是割裂的“炼丹组”训练团队埋头苦干用海量算力跑微调目标是把交叉熵损失Loss降到最低追求模型单次回答的准确率。“应用组”推理团队拿着训练好的模型想方设法用提示词工程Prompt Engineering、多次采样passN、搜索树等“测试期计算”技巧来压榨模型的潜力。这篇论文给行业的最大启示是这种“各管一段”的做法已经走到尽头了。如果训练团队不考虑模型在推理时会被如何使用比如会被放在搜索树里盲目地追求极致的微调最终交付的将是一个“过度自信且极其僵化”的模型。这样的模型在应用组复杂的测试期算法面前会表现得一塌糊涂。未来的大模型开发必须走向“协同设计 (Co-design)” 我们不能再闭门造车地设定训练目标。训练的协议如损失函数必须与测试期的策略如 passN 搜索深度对齐。你要在测试期怎么用这个模型你在训练期就得按照相应的目标去塑造它的概率分布。DCO 算法就是这种协同设计的绝佳范例。6.2 对未来推理模型 (Reasoning Models) 的深远启发如果你关注 AI 行业的最前沿你会发现类似 OpenAI o1 这样的模型正在引发一轮新的革命。这类模型的标志性特征就是在给出答案前会进行长时间的“思考”内部思维链和搜索。这标志着行业的核心驱动力正在发生转移从单纯依赖“扩大预训练规模 (Training-Time Scaling)”转向“扩大测试期计算 (Test-Time Scaling)”。在这股新浪潮中这篇论文的结论显得尤为关键SFT监督微调的天花板比想象中更低传统的 SFT 虽然能快速教会模型特定格式或简单的知识但如果目标是打造极其强大的“慢思考”推理模型传统的 SFT 不仅不是推力反而会成为阻碍抹杀多样性。“知道自己不知道”才是大智慧对于未来的推理模型来说保留不确定性Entropy/Diversity与提高准确率一样重要。只有当模型能够在自信与自我怀疑之间找到平衡就像 DCO 算法限制置信度那样它才能在广阔的未知领域中有效地试错、回溯和探索。结语大模型曾经的思维瓶颈在于算力和数据而现在的思维瓶颈在于我们如何教会它们“正确地思考”。这篇论文告诉我们真正的聪明不是盲目自信地背诵标准答案而是在面对复杂难题时拥有探索多种可能性的从容与多样性。希望这本迷你教程能帮你不仅读懂这篇硬核的顶会论文更能透过它看懂大模型未来演进的清晰脉络

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2491023.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！