颠覆传统！单样本熵最小化如何重塑大语言模型训练范式？

news2026/5/24 22:25:13

颠覆传统！单样本熵最小化如何重塑大语言模型训练范式？

大语言模型（LLM）的训练往往依赖大量标注数据与复杂奖励设计，但最新研究发现，仅用1条无标注数据和10步优化的熵最小化（EM）方法，竟能在数学推理任务上超越传统强化学习（RL）。这一突破性成果或将改写LLM的训练规则，快来了解这场效率革命！

论文标题

One-shot Entropy Minimization

来源

arXiv:2505.20282v2 [cs.CL] + https://arxiv.org/abs/2505.20282

PS: 整理了LLM、量化投资、机器学习方向的学习资料，关注同名公众号「 亚里随笔」即刻免费解锁

文章核心

研究背景

大语言模型（LLM）的训练后优化（post-training）近年来发展迅猛，DeepSeek-R1、Kimi-K1.5和OpenAI o-series等模型展现出卓越的推理能力。然而，传统强化学习（RL）方法在应用中面临显著挑战：其不仅需要大量高质量标注数据，还需精心设计规则化奖励函数以最大化优势信号，同时防范“奖励黑客”问题。与之形成鲜明对比的是，熵最小化（EM）作为完全无监督方法，在训练效率与便捷性上具备潜在优势。本研究通过训练13,440个LLM，系统验证了EM仅用单条无标注数据和10步优化即可超越传统RL的可能性，为LLM训练后优化范式提供了全新思路。

研究问题

1. 数据效率低下：RL需数千条标注数据，而无监督方法的潜力尚未充分挖掘。

2. 训练复杂度高：RL需设计复杂奖励函数，且易出现“奖励黑客”（reward hacking）问题。

3. 收敛速度缓慢：RL通常需数千步训练，而高效优化方法亟待探索。

主要贡献

1. 单样本高效优化：提出One-shot Entropy Minimization（单样本熵最小化）方法，仅用1条无标注数据+10步优化，性能超越传统RL（如在Qwen2.5-Math-7B模型上，MATH500数据集得分提升25.8分）。

2. 理论机制创新：揭示EM与RL的核心目标一致（释放预训练模型潜力），但通过“对数几率右移”（logits shift）机制驱动模型行为，与RL的左移方向相反，更利于生成高概率正确路径。

3. 关键因素解析：发现温度参数（temperature）是训练与推理的核心变量，EM在推理时温度趋势与RL完全相反（EM随温度升高性能下降，RL反之）。

3. 范式重新定义：证明EM是“分布塑形工具”而非学习方法，其效果在10步内即可完成，后续训练 loss 下降与性能提升解耦。

方法论精要

1. 核心算法/框架

熵最小化算法：通过最小化生成token的条件熵 $H_t$ ，迫使模型对预测更自信，仅计算生成token（非prompt部分）的熵。

数据选择策略：基于“方差筛选”选择最具不确定性的输入——计算模型在k次采样中的“pass@k准确率方差”，优先选择方差最高的prompt（如NuminaMath数据集中的风力压力计算问题）。

2. 关键参数设计原理

温度参数0.5：训练时温度过低会使分布过窄，过高则增加随机性，0.5时性能方差最大，易获峰值表现。

学习率 $2×10^{-5}$ ：10步快速收敛的最优选择，过大易导致过自信，过小则收敛缓慢。

3. 创新性技术组合

无监督+方差筛选：无需标注数据，仅通过模型自身预测的不确定性筛选有效输入，形成“熵敏感”训练信号。

对数几率分析：EM使logits分布右偏（skewness提升至1.54），集中概率质量于正确路径，而RL导致左偏（skewness降至0.02）。

4. 实验验证方式

数据集：数学推理基准（MATH500、Minerva Math、Olympiad Bench、AMC23），以及LLaMA-3.1-8B、Qwen2.5系列等多模型测试。

基线方法：OpenReasoner-Zero、SimpleRL-Zoo、Prime-Zero等RL模型，对比其在数据量（129k-230k）与训练步数（240-4000步）上的劣势。

实验洞察

1. 性能优势

Qwen2.5-Math-7B模型：EM 1-shot使MATH500从53.0提升至78.8（+25.8），Minerva Math从11.0至35.3（+24.3），平均提升24.7分，接近Prime-Zero-7B等SOTA模型。
跨模型泛化：在Qwen2.5-7B-Instruct模型上，EM将平均准确率从43.12%提升至44.5%，且对弱模型（LLaMA-3.1-8B）也有29.6%→42.2%的提升。