2025_NIPS_Compress, Gather, and Recompute: REFORMing Long-Context Processing in Transformers
文章核心总结与翻译一、主要内容本文针对大型语言模型(LLMs)处理超预训练上下文长度(如百万级token)时面临的计算成本高、内存消耗大、信息丢失等问题,提出了一种名为REFORM的新型推理框架。该框架融合循环压缩方法的效率优势与随机访问方法的召回能力,通过“压缩-收集-重计算”三阶段 pipeline 实现高效长上下文处理:循环分块前向传播阶段:将长输入分割为块,迭代处理并维护压缩的KV缓存,提取跨层注意力头的QKV状态构建轻量上下文嵌入,同时采用早停策略减少计算与内存开销;按需缓存重计算阶段:通过余弦相似度匹配,从历史上下文中筛选关键token,仅对这些token重计算完整KV缓存,既保证关键信息的高保真表示,又避免全缓存存储的内存负担。实验表明,REFORM在RULER、BABILong等长上下文基准测试中显著优于现有方法(1M上下文长度下性能提升34%-52%),同时减少30%推理时间和5%峰值内存占用,且支持文本、代码、多模态等多种任务场景。二、创新点跨层上下文嵌入设计:通过分析Transformer不同层和注意力头的检索性能,筛选最优QKV状态构建混合嵌入,兼顾检索精度与内存效率(嵌入维度小但性能优于注意力分数和隐藏状态);“压缩-收集-重计算”协同机制:循环压缩降低实时计算成本,相似度收集精准定位关键信息,按需重计算恢复高保真表示
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2415015.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!