论文洞察：基于重要性感知的多层级前缀KV Cache存储系统

news2026/3/25 11:53:16

研究背景本文基于浙江大学、华为在FAST25上发表的研究成果《IMPRESS: An Importance-Informed Multi-Tier Prefix KV Storage System for Large Language Model Inference》进行深入分析。当CPU内存不足时需要将前缀KV Cache存储在磁盘上由于磁盘I/O延迟较高LLM推理时复用KV Cache可能导致TTFT时延增加。本文提出IMPRESS一种基于重要性感知的多层级前缀KV Cache存储系统通过仅加载重要的前缀KV Cache来减少LLM推理的I/O延迟。总体而言IMPRESS属于KV Cache加载方面的LLM推理优化技术。核心问题识别LLM推理时通常在用户查询前添加长上下文以提高输出质量并且这些上下文在多个查询中可能存在部分或完全重复的情况因此现有系统通过存储和复用这些上下文的KV Cache来减少冗余计算并降低TTFT时间。然而当CPU内存不足时KV Cache需要存储在磁盘上由于磁盘I/O延迟高复用磁盘中的KV Cache在极大程度上会增加TTFT时延。1.存储瓶颈因GPU/CPU存在内存容量瓶颈长序列或大批量场景下需将前缀KV Cache存储到磁盘而磁盘I/O延迟成为新瓶颈占TTFT的51%-98%2.低效识别现有重要KV Cache识别需加载全部前缀KV Cache到GPU显存上来计算注意力权重I/O开销大3.存储与缓存优化不足传统系统将连续KV Cache合并为块chunk读取重要KV Cache时会附带无关数据且基于块访问模式的缓存管理未考虑KV Cache重要性导致缓存命中率低。核心设计与创新IMPRESS是一种基于重要性感知的多层级前缀KV Cache存储系统整合GPU内存、CPU内存和磁盘三层存储通过有选择的加载磁盘中重要前缀KV Cache以减少I/O延迟从而提高LLM推理性能。1.相似性引导的重要KVCache识别ITF由于同一Transformer层中不同注意力头的重要token索引集高度相似因此随机选取所有注意力头中的3个作为探测头probe heads仅加载KV Cache中K值到GPU显存来计算注意力权重通过相似度阈值生成重要token索引集从而避免加载全部注意力头的K值2.基于重要性感知的KVCache管理KVCache重排序按token重要性定期重组磁盘上的KV Cache块提高块内重要KV Cache密度降低读取重要KV Cache时的无效数据的加载频率。同时兼容基于基数树的前缀检索不破坏现有元数据结构基于Score的KVCache管理为每个块计算“访问频率×重要KV Cache比例”的Score优先将高Score的KV Cache缓存到GPU内存采用最小堆管理GPU/CPU缓存避免缓存冗余以提高重要KV Cache的GPU缓存命中率。图IMPRESS系统实验验证基于FlexGen实现了IMPRESS并在OPT-6.7B、OPT-13B和OPT-30B等模型上针对IMPRESS、ReComp、AS-like、ASH2OLRU、ASH2OLFU算法进行了测试对比。相比ReComp、AS-like、ASH2OLRU、ASH2OLFU算法IMPRESS的TTFT性能提升1.2-2.8倍KV Cache的I/O加载开销减少1.5-3.8倍。IMPRESS为每个KV chunk添加一个score得分其空间开销0.5%对整体系统的影响可忽略。图在四个数据集下不同算法的TTFT时间对比图不同算法的I/O开销对比研究价值IMPRESS有效解决了LLM长前缀推理中的磁盘I/O瓶颈问题为长上下文LLM推理服务提供了新的存储优化方案且重要token识别过程开销很小所以对现有LLM推理框架的影响较小。论文链接https://www.usenix.org/conference/fast25/presentation/chen-weijian-impress以上内容转载自微信公众号—大模型软硬协同优化链接https://mp.weixin.qq.com/s/nXlQ

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2442420.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！