2025_NIPS_The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning
文章核心总结与翻译主要内容文章聚焦熵最小化(EM)在大语言模型(LLMs)推理任务中的应用,提出三种无需标注数据的方法,在数学、物理、编程等复杂任务中显著提升模型性能:无监督微调(EM-FT):基于模型生成的无标注输出,最小化token级熵,效果对标有监督微调方法。强化学习(EM-RL):以负熵为唯一奖励信号,无需标注数据即可达到甚至超越主流RL基线(如GRPO、RLOO)。推理时优化(EM-INF):解码过程中调整logits以降低熵,无需训练或参数更新,效率是自一致性等方法的3倍。实验验证了EM的有效性:Qwen-7B的EM-RL性能比肩使用60K标注数据的RL方法;Qwen-32B结合EM-INF在SciCode基准上超越GPT-4o等商业模型。同时指出EM的局限性——依赖预训练模型的基础能力,在价值观对齐等任务中效果不佳。创新点首次系统验证熵最小化可独立作为LLMs后训练与推理优化目标,无需标注数据或外部监督。提出覆盖微调、强化学习、推理三个阶段的EM系列方法,适配不同应用场景。揭示预训练LLMs未被充分挖掘的推理潜力,证明通过强化模型置信度可有效提升复杂任务表现。EM-INF实现高效推理优化,解决了自一致性等方法依赖多轨迹采样的计算开销问题。翻译部分(Markdown格式)
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2415013.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!