长上下文与RAG
读到一篇探讨RAG技术的文章很受用遂记录一下。核心结论RAG不会被无限上下文取代。原文地址LLM无限上下文了RAGRetrieval Augmented Generation还有意义吗 - 今日头条以下是整理的关键技术信息一、无限上下文的局限性有效利用长度远低于声称长度论文《Lost in the Middle》指出模型对上下文头部和尾部的信息利用效率显著高于中间部分。上下文越长中间内容被有效关注的概率越低。注意力机制的计算瓶颈Transformer的注意力计算复杂度为O(n²)工程上的近似手段会导致信息损失。因此即使“装得下”百万token模型也无法均匀、完整地利用所有信息。二、RAG真正解决的核心问题知识的时效性模型参数冻结后知识截止于训练完成时。RAG通过外部知识库实时检索支持知识动态更新无需重新训练模型。知识的可追溯性RAG天然提供答案的来源哪份文档、哪个段落决策链条透明。这对于医疗、法律、金融等需要严格合规与审计的行业是准入门槛。成本与效率的现实约束长上下文如100万token的API调用成本高昂不适合大规模企业应用。RAG检索出的相关片段通常仅几百到几千token成本相差一到两个数量级。三、RAG的真实缺陷检索是最脆弱的一环若检索未找到正确文档后续生成再准确也无用。基于embedding的语义检索在多跳推理任务上表现差如“A公司现任CEO毕业于哪所大学”。文档切片无标准答案chunk太小信息不完整语义截断。chunk太大信息冗余成本上升。不同类型文档法律合同、技术文档、对话记录需要不同的切片策略。无法检索隐式知识语感、代码风格直觉、复杂推理能力等隐式知识无法通过文档表达和检索只能靠预训练或微调。向量相似度不等于语义相关否定句、数字/专有名词、领域专业术语等情况向量相似度可能误导。需训练领域专用的embedding模型增加系统复杂度。四、未来方向RAG与长上下文的协作分层检索 长上下文精读RAG做粗筛从数万文档中找出相关度最高的几十份长上下文模型对这几十份文档进行精细理解与推理。主动RAGAgent化模型在推理过程中主动发出检索请求多轮检索动态生成检索query更接近人类处理复杂问题的方式如ReAct框架。知识图谱 向量检索知识图谱显式存储实体与关系解决多跳推理问题向量检索处理语义相似性。两者结合如GraphRAG在跨文档推理任务上效果显著。混合检索稠密检索向量检索语义理解强 稀疏检索BM25精确匹配强。通过RRFReciprocal Rank Fusion等方法融合结果提高检索可靠性。五、成熟RAG系统的工程实践索引阶段文档解析处理PDF含OCR、表格、Word、HTML等不同格式。元数据提取标题、时间、作者等用于检索过滤。chunk策略常见策略包括固定字符、句子、段落、语义边界、文档结构。技巧“父子chunk”用小chunk检索用父chunk提供上下文可兼顾精度与完整性。检索阶段Query改写用LLM将用户问题改写为更适合检索的表达或生成多个子query。HyDE先让LLM生成假设性答案文档再用该文档检索有时比直接用query检索效果更好。Reranking用Cross-encoder对向量检索的top-k结果进行精排平衡精度与速度。生成阶段Prompt组织考虑“Lost in the Middle”现象将最相关内容放在prompt开头和结尾。冲突处理明确指示模型如何处理检索结果中的矛盾信息。防止参数知识覆盖通过prompt约束模型“只根据以下内容回答”但并非完全可靠。评估体系如RAGAS框架Faithfulness回答是否忠实于上下文。Answer Relevancy回答是否切题。Context Precision检索内容中真正相关的比例。Context Recall真正相关的内容被检索到的比例。四个指标之间存在张力需根据应用场景权衡。六、更深层的哲学思考文章指出RAG与长上下文之争本质上是两种知识组织哲学的张力内化知识将知识压缩进模型参数推理时直接调用长上下文是临时内化的延伸。外部知识按需检索模型知道“去哪里找、怎么找、怎么用”RAG的实现。这不仅是技术选择也关乎对“智能本质”的理解是追求一个全知的大脑还是一个配备完善检索系统的工作站。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2471138.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!