2025_NIPS_Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers

news2026/3/16 4:45:08

文章核心总结与翻译一、主要内容本文针对大型语言模型（LLMs）处理超预训练上下文长度（如百万级token）时面临的计算成本高、内存消耗大、信息丢失等问题，提出了一种名为REFORM的新型推理框架。该框架融合循环压缩方法的效率优势与随机访问方法的召回能力，通过“压缩-收集-重计算”三阶段 pipeline 实现高效长上下文处理：循环分块前向传播阶段：将长输入分割为块，迭代处理并维护压缩的KV缓存，提取跨层注意力头的QKV状态构建轻量上下文嵌入，同时采用早停策略减少计算与内存开销；按需缓存重计算阶段：通过余弦相似度匹配，从历史上下文中筛选关键token，仅对这些token重计算完整KV缓存，既保证关键信息的高保真表示，又避免全缓存存储的内存负担。实验表明，REFORM在RULER、BABILong等长上下文基准测试中显著优于现有方法（1M上下文长度下性能提升34%-52%），同时减少30%推理时间和5%峰值内存占用，且支持文本、代码、多模态等多种任务场景。二、创新点跨层上下文嵌入设计：通过分析Transformer不同层和注意力头的检索性能，筛选最优QKV状态构建混合嵌入，兼顾检索精度与内存效率（嵌入维度小但性能优于注意力分数和隐藏状态）；“压缩-收集-重计算”协同机制：循环压缩降低实时计算成本，相似度收集精准定位关键信息，按需重计算恢复高保真表示

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2415015.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！