【10 道 RAG 高频面试题】从基础到高级,面试官最爱问的都在这
【10 道 RAG 高频面试题】从基础到高级面试官最爱问的都在这写在前面2026.05.04 首发RAG检索增强生成是 2024-2026 年 AI 工程领域最火热的技术方向之一几乎所有大厂面试都会问。但很多人对 RAG 的理解停留在向量检索 拼接 Prompt的层面面试官一追问底层原理就露馅。Chunk 怎么切才能不丢语义Rerank 到底解决什么问题Self-RAG 和 CRAG 有什么区别Graph RAG 为什么比传统 RAG 强生产级 RAG 系统怎么做评估这篇文章整理了10 道最高频的 RAG 面试题每道题都配有标准答案、加分点和避坑指南。我之前写过上下文工程、Skill 本质是上下文工程、RAG 依旧是最适合 Agent 落地的、大模型蒸馏详解——这篇文章聚焦面试场景帮你把 RAG 从会用提升到能讲清楚。 文章目录 Q1什么是 RAG它解决了大模型的哪些痛点 Q2RAG 和微调Fine-tuning有什么区别什么时候用哪个 Q3RAG 的完整工作流程是什么 Q4Chunk 策略怎么选不同策略的 trade-off 是什么 Q5如何提升 RAG 的检索准确率 Q6如何评估 RAG 系统的质量 Q7RAG 常见问题有哪些怎么解决 Q8Self-RAG 和 CRAG 是什么和传统 RAG 有什么区别 Q9Graph RAG 和传统 RAG 有什么区别 Q10如何构建生产级 RAG 系统 总结速查卡 Q1什么是 RAG它解决了大模型的哪些痛点标准答案RAG 全称Retrieval-Augmented Generation检索增强生成是一种将检索与生成相结合的 AI 架构。它的核心流程是在让大模型生成答案之前先从外部知识库中检索相关信息然后把检索到的内容和问题一起提供给大模型让它基于真实资料来生成回答。RAG 解决了大模型的三大核心痛点痛点一知识时效性问题。大模型的训练数据有明确的截止日期无法回答之后发生的新事件。比如 GPT-4 的训练数据截止到 2023 年它不可能知道 2025 年的产品价格或 2026 年的政策变化。RAG 通过检索外部知识库为模型提供实时的知识补充使得模型可以回答训练数据之外的问题。这种增量更新知识的方式比重新训练模型成本低几个数量级。痛点二幻觉问题。大模型容易一本正经地胡说八道生成看似合理但实际错误的内容。这在企业应用中是致命的——一个法律咨询系统如果给出错误的法律条文后果不堪设想。RAG 通过检索真实资料让答案有依据、可溯源强制模型的回答基于检索到的事实从而大幅降低幻觉率。实验数据显示引入 RAG 后幻觉率可以从 30% 以上降低到 5% 以下。痛点三私有数据访问问题。企业内部的文档、客户数据、商业机密无法被公开的大模型直接访问——既因为训练数据不包含这些信息也因为企业不允许将私有数据发送到第三方 API。RAG 可以安全地连接私有数据源数据始终存储在企业内部只在推理时检索相关片段提供给模型实现定制化问答的同时保障数据安全。加分点能说出 RAG 的演进历程Naive RAG → Advanced RAG引入 Rerank、Query Rewrite→ Modular RAG → Graph RAG → Agentic RAG。这表明你不只知道 RAG 是什么还了解它的发展脉络和未来方向。避坑提示不要只回答检索 生成四个字。面试官要的是深度——需要解释清楚检索什么、怎么检索、为什么能解决幻觉。很多候选人只说了 RAG 的定义但无法解释为什么检索外部知识就能减少幻觉这会让面试官觉得你只是背了概念没有真正理解。 Q2RAG 和微调Fine-tuning有什么区别什么时候用哪个标准答案RAG 和 SFT 是两条完全不同的技术路线核心区别在于知识存储的位置对比维度RAG微调SFT原理模型参数不动知识存外部推理时检索用标注数据训练让模型记住知识知识更新更新知识库即可无需重训练重新训练成本高几天 多张 GPU幻觉控制答案来源于真实文档可追溯模型凭记忆回答难以追溯延迟多一次检索延迟较高推理直接延迟低成本低无需训练高需要训练私有数据数据不出企业安全可控训练数据需上传有泄露风险风格适配不改变模型风格可以改变模型风格和语气选型建议优先用 RAG 的场景知识频繁更新新闻、股价、政策、需要引用来源法律、医疗、金融、私有数据访问企业知识库、幻觉零容忍合规场景。这些场景的共同特点是知识的准确性和可追溯性比推理速度更重要。优先用微调的场景需要改变模型风格品牌语气、特定写作风格、领域适配医学问答的特定格式、特定任务优化代码生成、SQL 生成。这些场景的共同特点是你需要模型内化某种能力而不仅仅是查到某种知识。最佳实践RAG 微调组合。先用微调让模型适配领域风格和任务格式再用 RAG 提供实时知识。很多生产系统都是这种组合方案——微调解决怎么答RAG 解决答什么。加分点能说出知识的三种注入方式In-Context Learning上下文学习、RAG检索增强、Fine-tuning微调并解释它们的成本-效果 trade-off。In-Context 最灵活但 Token 消耗大RAG 平衡了灵活性和成本微调成本最高但推理最快。避坑提示不要说RAG 一定比微调好或微调一定比 RAG 好。面试官想看的是你能否根据具体场景做 trade-off而不是非黑即白的判断。 Q3RAG 的完整工作流程是什么标准答案RAG 的工作流程分为两个阶段索引阶段离线和检索生成阶段在线。索引阶段离线文档加载从 PDF、Word、Markdown、HTML 等格式加载原始文档。不同格式的解析质量直接影响后续效果PDF 的表格和图片提取是常见难点。文本分块Chunking将长文档切分为适当大小的片段。Chunk 太大会引入噪声太小会丢失上下文。通常选择 512-1024 tokensOverlap 10-20%。向量化Embedding使用 Embedding 模型将每个 Chunk 转换为向量表示。模型选择直接影响检索质量常用 BGE、GTE、text-embedding-3-large 等。向量存储将向量存入向量数据库Milvus、Qdrant、Chroma、Weaviate 等。同时存储元数据来源、权限、时间戳用于后续过滤。元数据索引建立来源、权限、时间戳等元数据索引支持混合检索时的精确过滤。检索生成阶段在线Query 处理对用户查询进行预处理包括 Query Rewrite查询重写、HyDE假设文档嵌入、Query Expansion查询扩展等。目的是将口语化的、模糊的用户查询转化为更适合检索的形式。向量检索将处理后的 Query 向量化在向量数据库中检索 Top-K 最相似的 Chunk。通常 K10-20为后续 Rerank 留出余量。Rerank重排序使用 Cross-Encoder 模型对 Top-K 结果进行精排选出最相关的 Top-5。Bi-Encoder 粗排 Cross-Encoder 精排是业界标准做法。Prompt 构建将检索到的 Chunk 和用户问题组装成 Prompt。关键是要控制上下文长度、标注来源、设定回答约束“只基于提供的资料回答”。LLM 生成将构建好的 Prompt 发送给大模型生成最终答案。生成时可以要求模型引用来源提高可追溯性。加分点能说出每个步骤的trade-offChunk 大小的权衡、Embedding 模型的选择依据、Top-K 的 K 值如何确定、Rerank 的计算成本等。面试官最怕只会背流程但不理解背后设计决策的人。避坑提示不要只画流程图不解释。面试官想听的是你对每一步的理解而不是你能不能背出五个步骤。重点讲清楚为什么这样设计和每步的 trade-off 是什么。 Q4Chunk 策略怎么选不同策略的 trade-off 是什么标准答案Chunk 策略是 RAG 效果的基础选错了后面所有优化都白搭。常见的四种策略策略一固定长度切分Fixed Size。按字符数或 Token 数切分最简单最通用。通常 Chunk Size5121024Overlap100200。优点是实现简单、通用性强缺点是可能在句子中间截断破坏语义完整性。适合快速原型和通用场景。策略二递归字符分割Recursive Splitting。按分隔符优先级逐级切分先按段落\n\n再按句子\n再按词。这是 LangChain 的默认策略也是推荐的默认选择。优点是尽量保持语义完整性缺点是对于没有明确分隔符的文本效果一般。策略三语义分割Semantic Chunking。基于 Embedding 相似度检测语义边界在语义变化处切分。质量最高但计算成本也最高需要额外调用 Embedding 模型。适合对检索质量要求极高的场景如法律、医疗。策略四Parent-Child 分块。小 Chunk如 128 tokens用于检索大 Chunk如 1024 tokens用于生成。检索时用小 Chunk 保证精度生成时用大 Chunk 保证上下文完整。这是目前长文档问答的最佳实践但实现复杂度较高。选择建议场景推荐策略Chunk SizeOverlap通用问答递归分割512-102410-20%长文档问答Parent-Child检索128/生成102415%高精度场景语义分割自适应自适应快速原型固定长度512100加分点能说出Chunk Size 的 trade-off大 Chunk 保留更多上下文但引入噪声、增加 Token 消耗小 Chunk 检索精度高但可能丢失上下文。以及Overlap 的作用防止关键信息被切分到两个 Chunk 的边界处而丢失。避坑提示不要只说用 LangChain 的 RecursiveCharacterTextSplitter。面试官想知道你理解不同策略的原理和适用场景而不是你会调 API。 Q5如何提升 RAG 的检索准确率标准答案这是面试中最常被追问的问题至少要说出 3 种方法5 种以上加分方法一混合检索Hybrid Search。BM25 关键词检索 向量语义检索取并集后融合排序。BM25 擅长精确匹配人名、产品编号、专业术语向量检索擅长语义匹配“如何提升销量” ≈ “增长策略”。混合检索可以将召回率从纯向量的 65% 提升到 82% 以上是最基础也是最有效的优化手段。权重通常设为 0.5/0.5但可以根据数据特性调整。方法二查询重写Query Rewrite。将口语化的用户查询转化为更适合检索的形式。例如苹果股价重写为Apple Inc. 最新股票价格补全隐含信息。还可以做 Query Expansion将一个查询扩展为多个子查询分别检索后合并结果。查询重写可以显著提升短查询和模糊查询的检索效果。方法三重排序Rerank。先用 Bi-Encoder双塔模型做粗排取 Top-20再用 Cross-Encoder交叉编码器做精排取 Top-5。Cross-Encoder 同时编码 Query 和 Document能捕捉更细粒度的相关性信号精度远高于 Bi-Encoder但计算成本也高 10-100 倍。所以采用粗排 精排的两阶段策略在精度和成本之间取得平衡。Rerank 是检索精度提升最显著的单项优化。方法四HyDEHypothetical Document Embedding。先让 LLM 根据用户查询生成一个假设答案然后用这个假设答案的 Embedding 去检索。假设答案比原始查询更接近目标文档的语义空间因此检索效果更好。特别适合短查询和跨语言场景。缺点是增加了一次 LLM 调用延迟和成本增加。方法五多路召回Multi-Channel Retrieval。关键词 向量 知识图谱三路并行检索融合去重后 Rerank。知识图谱可以提供实体关系和结构化信息弥补纯文本检索的不足。召回最全面但实现复杂度最高。方法六自适应检索Self-RAG / CRAG。评估检索结果的质量质量差时自动触发重写或重检。这是 2025-2026 年的前沿方向详见 Q8。加分点能说出优化优先级混合检索 Rerank 查询重写 HyDE 多路召回 自适应检索。前两项是性价比最高的优化建议优先实施。避坑提示不要只列举方法名要能解释每种方法的原理和适用场景。面试官可能会追问“为什么混合检索比纯向量好能举个纯向量检索失败的例子吗” Q6如何评估 RAG 系统的质量标准答案RAG 评估是面试中的高频考点也是生产系统最容易被忽视的环节。评估分三个维度维度一检索阶段指标RecallKTop-K 检索结果中包含正确答案的比例。这是最核心的检索指标目标 90%。如果 Recall 不够后面生成再好也没用——巧妇难为无米之炊。MRRMean Reciprocal Rank正确答案在检索结果中的排位的倒数均值。MRR1.0 表示正确答案总是排第一。NDCGNormalized Discounted Cumulative Gain考虑排序位置的相关性指标排在前面的相关文档贡献更大。PrecisionKTop-K 中相关文档的比例。维度二生成阶段指标RAG Triad这是Ragas 框架提出的三个核心指标用LLM 监考自动评分Faithfulness忠实度生成答案是否忠实于检索到的上下文有没有编造上下文中没有的信息。这是最关键的指标目标 95%。低忠实度 幻觉。Answer Relevancy答案相关性生成答案是否真正回答了用户的问题而不是答非所问。Context Recall上下文召回率检索到的上下文是否包含了回答问题所需的所有信息。低 Context Recall 检索不全。维度三端到端指标任务完成率用户问题被正确解决的比例目标 85%。二次查询率用户需要追问的比例越低越好。答案正确性人工标注评估最准确但成本最高。加分点能说出Ragas 的LLM 监考机制用另一个 LLM 来评估生成答案的质量自动生成评分无需大量人工标注。这是 2025-2026 年 RAG 评估的主流方法。同时能说出Faithfulness 是最关键指标——因为幻觉是 RAG 系统最大的风险。避坑提示不要只说用 Ragas 评估。面试官想知道你理解每个指标的含义和目标值以及为什么 Faithfulness 最重要。 Q7RAG 常见问题有哪些怎么解决标准答案RAG 在实际应用中会遇到五大类问题每类都有对应的解决方案问题一检索不到相关内容低召回率原因分析Query 表达与文档表述差异大、Embedding 模型不够好、Chunk 切分不合理、知识库覆盖不全。解决方案查询重写Query Rewrite补全隐含信息、混合检索BM25 向量互补、升级 Embedding 模型BGE-M3、GTE-large、优化 Chunk 策略、补充知识库覆盖面。其中混合检索是性价比最高的解决方案通常能将召回率提升 15-20 个百分点。问题二检索到但不相关低精确率原因分析向量检索的语义漂移、Top-K 太大引入噪声、缺乏 Rerank。解决方案引入 RerankCross-Encoder 精排、降低 Top-K 值、设置相似度阈值过滤、元数据过滤按来源/时间/权限。Rerank 是解决低精确率最有效的方法通常能将精确率提升 20-30 个百分点。问题三检索到了但生成时幻觉低忠实度原因分析Prompt 没有约束只基于提供的资料回答、检索结果太多模型注意力分散、模型本身幻觉倾向。解决方案Prompt 加约束“只基于以下资料回答如果资料中没有相关信息请回答’我没有找到相关信息’”、减少检索结果数量Top-5 而非 Top-20、使用 Faithfulness 评估持续监控、选择幻觉率低的模型。问题四多跳推理失败需要综合多个文档原因分析传统 RAG 是单轮检索无法处理需要跨文档推理的问题。例如公司 A 和公司 B 哪个市值更高需要分别检索两家公司信息再比较。解决方案Agentic RAG多轮检索 推理、Graph RAG知识图谱多跳推理、Query Decomposition问题分解为子问题分别检索。这是 2025-2026 年 RAG 领域最活跃的研究方向。问题五知识库更新延迟原因分析新文档入库后需要重新 Embedding 和索引有延迟。解决方案增量索引只处理新增文档、异步索引管道、实时 Embedding 缓存、文档变更监听自动触发索引更新。生产系统中索引更新延迟通常控制在 5 分钟以内。加分点能说出问题优先级低召回率 低忠实度 低精确率 多跳推理 更新延迟。召回率是基础忠实度是底线精确率是优化多跳是进阶。避坑提示不要只说问题不说解决方案。面试官想看的是你能否定位问题根因并给出可行的解决方案而不是只会抱怨RAG 效果不好。 Q8Self-RAG 和 CRAG 是什么和传统 RAG 有什么区别标准答案Self-RAG 和 CRAG 是 2024-2025 年提出的两种自我纠正RAG 机制核心思想是让模型自己评估检索和生成的质量并在必要时进行纠正。Self-RAGSelf-Reflective RAGSelf-RAG 由 Asai 等人在 2023 年提出核心创新是引入了三种反思 TokenRetrieve Token模型自己决定是否需要检索。对于你好这类闲聊问题不需要检索直接回答即可对于事实性问题才触发检索。这避免了不必要的检索开销和噪声引入。IsRel TokenIs Relevant评估检索结果是否与问题相关。如果检索到的内容不相关模型可以拒绝使用这些内容避免被误导。IsSup TokenIs Supported评估生成答案是否被检索到的内容所支持。如果答案无法被检索内容支撑模型会重新生成或标注不确定。Self-RAG 的流程是问题 → 是否检索→ 检索 → 结果相关→ 生成 → 答案有支撑→ 输出。每一步都有自我检查环节形成闭环。这种机制使得 RAG 系统从盲目检索进化为有判断力的检索。CRAGCorrective RAGCRAG 由 Yan 等人在 2024 年提出核心创新是引入了检索质量评估器和纠正机制检索质量评估用一个小模型评估检索结果的相关性得分。如果得分高 阈值直接使用如果得分低 阈值触发纠正。纠正策略当检索质量差时CRAG 不会直接放弃而是尝试Web Search作为补充检索源。这相当于给 RAG 系统加了一个兜底方案——内部知识库检索不到就去互联网上找。知识精炼对检索到的文档进行去噪只保留与问题最相关的部分减少噪声干扰。CRAG 的流程是检索 → 质量评估 → 好直接用 / 差Web Search 补充 → 知识精炼 → 生成。关键区别在于它有一个外部纠正通道Web Search而 Self-RAG 的纠正更多是内部反思。两者对比维度Self-RAGCRAG纠正方式内部反思反思Token外部纠正Web Search需要特殊训练是反思Token需训练否即插即用适用场景高精度、低延迟高可靠性、可容忍延迟实现难度高需训练反思能力中需接入搜索API加分点能说出共同本质两者都是让 RAG 从开环变成闭环——传统 RAG 是检索 → 生成的单向流程Self-RAG 和 CRAG 都加入了评估 → 纠正的反馈环。这和上下文工程中遗忘与回忆的哲学一脉相承不是所有信息都值得加载需要评估和筛选。避坑提示不要把 Self-RAG 和 CRAG 混为一谈。面试官想看的是你能否区分两者的纠正机制——内部反思 vs 外部纠正以及各自的适用场景。 Q9Graph RAG 和传统 RAG 有什么区别标准答案Graph RAG 是 2024-2025 年微软提出的一种新型 RAG 架构核心区别在于知识表示方式传统 RAG 用向量存储文本片段Graph RAG 用知识图谱存储实体和关系。传统 RAG 的局限传统 RAG 基于文本片段 向量相似度的检索模式在处理需要多跳推理的问题时力不从心。例如公司 A 的 CEO 之前在哪家公司工作那家公司的市值是多少这需要两步推理——先找到 CEO 的前任公司再查那家公司的市值。传统 RAG 可能检索到包含公司 A 的 CEO的片段但很难同时检索到前任公司和市值的信息因为这些信息可能分散在不同文档中。Graph RAG 的核心创新知识图谱构建从文档中抽取实体人、组织、产品和关系就职于、收购了、市值构建知识图谱。每个实体是节点关系是边。社区检测对知识图谱做社区检测如 Leiden 算法将相关实体聚类成社区每个社区生成一个摘要。多跳检索查询时先定位相关实体然后沿图谱边跳转到关联实体实现多跳推理。例如从公司 A 的 CEO跳转到前任公司再跳转到市值。全局摘要社区摘要提供了文档的高层视图适合回答需要全局理解的问题“这篇报告的主要发现是什么”。Graph RAG vs 传统 RAG 对比维度传统 RAGGraph RAG知识表示文本片段 向量实体 关系 图谱检索方式向量相似度图遍历 语义匹配多跳推理弱需多轮检索强天然支持全局理解弱只有局部片段强社区摘要构建成本低只需 Embedding高需实体抽取 图谱构建更新成本低增量 Embedding高需更新图谱适用场景事实性问答关系推理 全局分析什么时候该用 Graph RAG知识之间有丰富的实体关系人物关系、组织架构、供应链需要多跳推理“A 的 B 的 C 是什么”需要全局理解“这篇报告的核心观点是什么”愿意承担更高的构建和维护成本什么时候该用传统 RAG知识以独立文档为主关系不复杂主要是事实性问答需要快速上线、低成本维护知识库更新频繁加分点能说出Graph RAG 的最佳实践传统 RAG Graph RAG 混合方案。用传统 RAG 处理事实性问答用 Graph RAG 处理关系推理两者互补。很多生产系统已经采用这种混合架构。避坑提示不要说Graph RAG 一定比传统 RAG 好。Graph RAG 的构建成本远高于传统 RAG只有在确实需要多跳推理和全局理解时才值得投入。 Q10如何构建生产级 RAG 系统标准答案从 Demo 到生产级 RAG 系统差距巨大。以下是生产级 RAG 系统必须考虑的 8 个维度1. 检索质量保障生产系统的检索质量必须有量化指标和持续监控。建立三层评估体系离线评估标注测试集计算 Recall/MRR、在线评估采样用户查询自动评分 Faithfulness、人工评估定期抽检。核心指标Recall10 90%、Faithfulness 95%、Answer Relevancy 90%。任何低于阈值的 case 都要进入 Bad Case 分析流程。2. 幻觉防控生产系统对幻觉零容忍。四道防线Prompt 约束“只基于提供的资料回答”、Faithfulness 自动评估低于阈值自动拦截、来源引用要求模型标注答案来源、人工审核高风险领域。其中 Faithfulness 自动评估是最关键的——它可以在用户看到答案之前就拦截潜在的幻觉回答。3. 权限控制企业数据有权限边界不同用户能看到的知识不同。实现方式检索时按用户角色过滤元数据过滤、文档级别权限标签、查询时注入用户身份信息。权限过滤的准确率必须 99%否则就是数据泄露。4. 性能优化生产系统的延迟和吞吐量有硬性要求。关键指标P99 检索延迟 500ms、端到端延迟 3s、并发支持 100 QPS。优化手段Embedding 缓存、Rerank 模型蒸馏小模型精排、异步检索管道、向量数据库分片。5. 知识库管理知识库不是建好就完事的需要持续维护。包括增量索引新文档自动入库、过期清理旧文档自动下架、质量巡检定期检查 Embedding 质量、版本管理知识库回滚能力。索引更新延迟控制在 5 分钟以内。6. 可观测性生产系统必须有完善的监控和告警。监控指标检索延迟、检索质量、生成延迟、Faithfulness 分布、用户满意度。告警规则Faithfulness 90% 触发 P1 告警、检索延迟 1s 触发 P2 告警、Bad Case 率 5% 触发 P1 告警。7. 降级策略当 RAG 系统出现问题时需要有降级方案。三级降级一级降级关闭 Rerank降低延迟、二级降级切换到备选 Embedding 模型、三级降级关闭 RAG直接用 LLM 回答 免责声明。降级策略确保系统在极端情况下仍然可用。8. 持续优化RAG 系统不是一锤子买卖需要持续迭代。建立反馈闭环用户反馈 → Bad Case 分析 → 问题定位 → 优化方案 → A/B 测试 → 灰度发布。每季度做一次全面评估对比核心指标趋势确保系统持续改进而非退化。加分点能说出生产级 RAG 的成本估算向量数据库Milvus 集群 ~$500-2000/月、Embedding 服务~$0.1/1M tokens、Rerank 服务~$0.5/1M tokens、LLM 推理~$2-10/1M tokens、工程人力4-20 万美元初期投入。以及最常见的生产事故权限过滤遗漏导致数据泄露、Faithfulness 下降未及时发现、知识库更新后 Embedding 质量退化。避坑提示不要只说技术方案要能说出工程考量成本、可观测性、降级策略、持续优化。面试官想看的是你能否从Demo 思维切换到生产思维。 总结速查卡10 道题核心答案速查题号问题核心答案关键词Q1RAG 是什么检索生成 / 知识时效 / 幻觉 / 私有数据Q2RAG vs 微调知识存外部 vs 内化 / 更新成本 / 幻觉控制 / 组合使用Q3完整流程索引阶段(5步) 检索生成阶段(5步)Q4Chunk 策略固定/递归/语义/Parent-Child / trade-offQ5提升检索准确率混合检索/Rerank/查询重写/HyDE/多路召回/自适应Q6评估质量检索指标(Recall/MRR) RAG Triad(Faithfulness!) 端到端Q7常见问题低召回/低精确/幻觉/多跳/更新延迟Q8Self-RAG/CRAG反思Token vs Web纠正 / 开环→闭环Q9Graph RAG知识图谱/多跳推理/全局摘要 / 混合方案Q10生产级 RAG8维度质量/幻觉/权限/性能/管理/观测/降级/迭代面试答题框架每道题按这个框架回答逻辑清晰不丢分一句话定义先给出最精炼的核心答案展开解释说清楚原理、流程、对比举具体例子用实际场景说明避免纯理论说 trade-off没有银弹每种方案都有取舍给选择建议根据场景给出明确推荐优化优先级混合检索 Rerank 查询重写 HyDE 多路召回 自适应检索核心指标目标值Recall10 90% | Faithfulness 95% | P99 500ms | 权限准确率 99%系列文章深入浅出上下文工程比 Prompt Engineering 更重要的下一代 AI 工程范式Skill 本质还是上下文工程RAG 已死依旧是最适合 Agent 项目落地的大模型蒸馏详解Claude Code 到底强在哪参考链接RAG大厂面试题汇总向量检索、混合检索、Rerank (知乎)RAG夺命10连问 (博客园)RAG面试通关秘籍15个核心问题深度解析 (CSDN)Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection (论文)Corrective RAG (CRAG) (论文)From Local to Global: A Graph RAG Approach to Query-Focused Summarization (微软)
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2581236.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!