2025_NIPS_The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning

news2026/3/16 4:45:08

文章核心总结与翻译主要内容文章聚焦熵最小化（EM）在大语言模型（LLMs）推理任务中的应用，提出三种无需标注数据的方法，在数学、物理、编程等复杂任务中显著提升模型性能：无监督微调（EM-FT）：基于模型生成的无标注输出，最小化token级熵，效果对标有监督微调方法。强化学习（EM-RL）：以负熵为唯一奖励信号，无需标注数据即可达到甚至超越主流RL基线（如GRPO、RLOO）。推理时优化（EM-INF）：解码过程中调整logits以降低熵，无需训练或参数更新，效率是自一致性等方法的3倍。实验验证了EM的有效性：Qwen-7B的EM-RL性能比肩使用60K标注数据的RL方法；Qwen-32B结合EM-INF在SciCode基准上超越GPT-4o等商业模型。同时指出EM的局限性——依赖预训练模型的基础能力，在价值观对齐等任务中效果不佳。创新点首次系统验证熵最小化可独立作为LLMs后训练与推理优化目标，无需标注数据或外部监督。提出覆盖微调、强化学习、推理三个阶段的EM系列方法，适配不同应用场景。揭示预训练LLMs未被充分挖掘的推理潜力，证明通过强化模型置信度可有效提升复杂任务表现。EM-INF实现高效推理优化，解决了自一致性等方法依赖多轨迹采样的计算开销问题。翻译部分（Markdown格式）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2415013.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！