收藏必备！小白程序员快速入门RAG，解锁大模型知识检索与增强（干货满满）

news2026/5/21 11:03:52

本文详细介绍了RAG检索增强生成的概念、流程及优化策略。RAG通过从数据库检索上下文文档有效提升LLM答案的准确性与时效性解决纯生成模型的局限性。文章覆盖了文档加载、切分、向量化存储以及检索与生成两个核心阶段并深入探讨了文档分块、相似度计算、重排序、GraphRAG等进阶优化方法。此外还讨论了RAG的评估指标与常见缺点及解决方案为读者提供全面且实用的学习指南。你了解RAG吗下面这些问题你是否能回答上来呢什么是 RAGRAG 的流程是什么为什么需要 RAG如何对文档分块Chunking分块大小如何选择检索时如何计算相似度余弦相似度有什么缺点如何优化 RAG 流程什么是 Re-rank如何重排序什么是 GraphRAG如何评估 RAG 系统的效果RAG 有哪些缺点本篇文章来详细介绍什么是 RAGRAG 的流程以及RAG 进阶优化干货满满相信你看完文章之后会对 RAG 有更深入的理解。RAG 介绍RAG(Retrieval Augmented Generation) 是一种无需微调即可扩充模型知识的常用方法。借助 RAGLLM可以从数据库中检索上下文文档以提高答案的准确性。因为 LLM 大模型通过海量数据进行训练数据是有时效性的。如果询问最新的文档或者一些专业领域的知识LLM 是无法回答的。所以检索增强生成(RAG) 通过将你的数据添加到 LLM 已有的数据中来解决此问题。RAG 解决了纯生成模型的局限性如幻觉、知识过时等通过动态检索外部知识增强生成结果的可信度和时效性。RAG 流程典型的 RAG 流程分为两个部分构建向量存储创建向量存储是构建检索增强生成 (RAG) 流程的第一步。文档会被加载Load、拆分Split、Embedding 存储到向量数据库中。加载文档 Load加载各种非结构化的数据例如TXT 文本、PDF、JSONHTML、Markdown 等。Langchain 封装了各种格式的DocumentLoaders文档加载器。切分文本 Split将文本切分成更小的文本块Chunk。转化向量 Embedding使用 Embedding 模型将文本转换为向量浮点数数组表示向量数据库 VectorStore 存储 Embedding 向量能够基于向量相似度高效地检索与查询“最相似”的数据。2. 检索生成根据用户输入用向量数据库进行相似性搜索让后把用户的question和搜索到的context作为上下文喂给 LLM 大模型LLM 分析推理回答用户的问题。我使用LangGraph构建了基本的 RAG 流程调用 Retrieval Tool 搜索相关文档然后GradeDocument对文档进行评分对从向量数据库检索到的文档进行评分如果检索到的文档与用户输入的内容相关则 GenerateAnswer 生成答案返回如果不相关则 Rewrite 重新生成 query 进行检索。代码已上传 Githubhttps://github.com/Liu-Shihao/ai-agent-demo/tree/main/src/rag_agent进阶 - RAG 优化文档 Chunking大模型对话的 token 数量是有限制的文档切分是为了将文档切分为小的文本块适合检索并且节省 token。切分的文本块长度也会影响 LLM 回答的质量。常见的切分文档的方法固定长度切分重叠分块边界按照字符或者 Token 数如 512 个 token切分。重叠分块以避免边界信息丢失。这种方式最简单但是有可能会截断语义。按照句子边界标点符号分块例如使用 NLP 框架SpaCy, 但是长段落可能语义断裂。自定义规则分割用正则表达式或者 DOM 解析器如 BeautifulSoup按照逻辑结构标题段落分块。适合结构化文档但是需要手动设计分割规则。基于语义的分块用 Transformer 模型分析语义关系分块。优化原则chunk 块大小需要匹配 embedding 模型和 llm 大模型的 tokne 限制。关键信息实体关系尽量保留在同一块中。相似性算法在 RAG检索增强生成和其他信息检索任务中相似性算法用于衡量文本、向量或实体之间的关联程度。欧氏距离L2 欧几里得距离测量连接两点的线段的长度计算向量间的直线距离。它是最常用的距离度量当数据连续时非常有用。值越小相似度越高。余弦相似度COSINE 余弦相似度使用两组向量之间夹角的余弦来衡量它们的相似程度。余弦相似度始终在区间[-1, 1]内。余弦值越大两个向量之间的夹角越小表明这两个向量彼此越相似。适合文本 embedding 比较。BM25(Best Matching 25)BM25 基于词频TF和逆文档频率IDF)。根据词频、倒排文档频率、文档规范化对相关性进行评分。用于评估文档与查询的相关性。广泛应用于搜索引擎和问答系统。如 Elasticsearch 默认使用 BM25 排序。词频TF衡量查询词在文档中的出现频率但通过参数k1控制词频的饱和效应避免高频词过度影响得分。逆文档频率IDF惩罚常见词如“的”“是”提升罕见词的权重。反映某个术语在整个语料库中的重要性。出现在较少文档中的术语的 IDF 值较高表明其对相关性的贡献较大。文档长度归一化较长的文档由于包含更多术语往往得分更高。BM25 通过归一化文档长度来缓解这种偏差。通过参数调整长文档的得分避免因文档长度导致的词频偏差。Jaccard相似度Jaccard Index: 比较集合的交集与并集比例。适用场景关键词集合、推荐系统如用户兴趣匹配。范围[0,1]值越小相似度越高。RAG 中的典型应用初步检索余弦相似度快速筛选候选文档。重排序交叉编码器精细排序 Top-K 结果。去重Jaccard 相似度合并重复片段。通过灵活组合这些算法可以优化 RAG 系统的召回率、准确率和响应速度。余弦相似度COSINE的缺点忽视向量长度信息余弦相似度仅计算向量方向的夹角忽略向量的长度模。这意味着高频词干扰TF-IDF或词频高的长文本可能主导方向但实际语义不相关。会放大无关词的影响。归一化依赖未归一化的向量可能导致相似度计算偏差。长文本包含更多词汇其向量各维度值累加后长度模显著大于短文本。语义相似度 ≠ 相关性余弦相似度基于表面语义匹配。表面匹配但相关文档不一定语义相似如果两个文本共享许多相同的关键词如“猫”“狗”“宠物”即使逻辑不同余弦相似度仍可能很高。例如文档1“猫和狗是常见的宠物。”正向描述文档2“猫和狗不适合作为宠物。”负向观点余弦相似度高但语义相反。词序颠倒但余弦相似度相同。示例句子A“医生治疗病人。”句子B“病人治疗医生。”解决方案向量归一化强制所有向量的单位长度如L2归一化。结合其他指标如点积相似度考虑长度或BM25词频加权。重排序Re-rank用交叉编码器如MiniLM精细化排序。混合检索结合关键词匹配BM25或知识图谱关系。Rerank 重排序重排序Reranking是对初步检索结果进行优化排序的技术旨在提升结果的相关性和准确性。初次检索如余弦相似度可能返回语义相关但冗余或低质量片段重排序可结合更多特征优化顺序。方法交叉编码器Cross-Encoder如 MiniLM-L6-v2计算查询与每个文档的相关性分数比嵌入模型更准但更慢。学习排序Learning to Rank训练模型综合多特征如关键词匹配、点击率排序。规则调整去除重复内容、优先新鲜度高的文档。Graph RAG使用知识图谱Knowledge Graph, KG增强 RAG检索增强生成可以显著提升复杂推理、多跳问答和关系挖掘的能力。通过将文档中的实体Entities和关系Relations提取为知识图谱在检索阶段不仅返回文本片段还返回相关的子图结构从而增强生成模型的上下文理解能力。与传统 RAG 的区别特性传统 RAGGraphRAG检索单元文本片段Chunks实体关系子图推理能力单跳语义匹配多跳推理如 A→B→C适用场景简单问答复杂关系查询实现步骤实体识别NER使用 SpaCy NLP 模型或者 LLM 大模型进行命名实体提取从文本中识别提取人名地名组织名地点日期等实体。关系抽取可以利用 LLM 大模型抽取三元组(〈主体 (Subject), 关系 (Predicate), 客体 (Object)〉)。图谱存储将节点 Node 和关系 Relations 存储到图数据库中如 Neo4j。三元组Triple是知识图谱Knowledge Graph中的基本数据单元用于表示实体Entity之间的关系Relation其结构为〈主体 (Subject), 关系 (Predicate), 客体 (Object)〉通过知识图谱的引入RAG 系统能够从“平面检索”升级为“立体推理”尤其适合需要深挖实体关系的复杂场景。RAG Evaluate 评估对RAG的评估可以从以下两个部分进行检索质量上下文准确率Context Precision是衡量上下文中相关词块比例的指标。准确率是排名为 k 的相关词块数量与排名为 k 的词块总数之比。上下文召回率Context Recall前K个结果中相关文档的比例。衡量成功检索到的相关文档或信息片段数量。更高的召回率意味着遗漏的相关文档更少。生成质量答案相关度 Response Relevancy生成答案与问题的契合度。衡量答案与用户输入的相关性。分数越高表示与用户输入的匹配度越高如果生成答案不完整或包含冗余信息则分数越低。忠诚度 Faithfulness衡量的是答案与检索内容的事实一致性。答案是否严格基于检索内容减少幻觉。RAG 有哪些缺点检索的质量依赖外部数据库如果知识库不完整过时或者噪声多检索到的内容可能不相关或者错误导致生成的答案质量下降。解决方案定期更新知识库实时爬取权威数据源分块Chunking导致上下文碎片化固定大小的分块可能截断关键信息。答案可能分散在多个 chunk 块中。解决方案动态分块按照语义边界切分如段落章节·语义相关不等于答案相关向量检索如余弦相似度可能返回语义相关但无实际答案的文档。如查询“如何治疗感冒”可能检索到“感冒症状描述”而非治疗方案。解决方案引入重排序Re-rank模型如交叉编码器混合检索结合关键词检索如 BM25。生成模型忽视检索内容生成模型可能忽略检索到的文档仍依赖自身知识幻觉。解决方案强化提示工程如“严格基于以下上下文回答”。无法处理多跳推理传统 RAG 难以回答需要多步推理的问题如“A 公司的竞争对手的 CEO 是谁”。解决方案引入知识图谱GraphRAG显式建模实体关系。RAG 流程时间长检索生成两阶段流程导致响应时间较长尤其涉及重排序时。解决方案缓存高频查询结果。缺点类别具体问题解决方案检索质量知识库不完整/碎片化动态更新知识库、语义分块、重排序生成偏差忽视检索内容/幻觉提示工程、模型微调效率问题高延迟/高计算成本缓存、量化、分层检索知识覆盖领域盲区/偏见多源数据融合、去偏处理复杂推理多跳推理困难GraphRAG、迭代检索最后2026年技术圈的分化愈发明显降薪裁员潮持续蔓延传统开发、测试等岗位大批缩水不少从业者陷入职业焦虑与之形成鲜明对比的是AI大模型相关岗位迎来疯狂扩招薪资逆势飙升150%大厂更是直接开出70-100W年薪疯抢具备实战能力的大模型人才甚至放宽年龄限制只求能快速落地技术、创造价值很多程序员、职场新人纷纷入局大模型领域绝非盲目跟风而是实实在在看到了不可替代的价值优势这也是2026年最值得抓住的职业风口1、窗口期红利入门门槛友好不同于成熟赛道的“内卷式招聘”2026年大模型人才缺口巨大简历只要达标掌握基础AI应用具备简单项目经验年龄、学历均非硬性要求小白可快速入门转行程序员也能无缝衔接2、技术可复用上手速度翻倍如果你有前后端开发、测试、数据分析等基础在大模型落地、系统部署、Prompt工程等环节会更具优势无需从零开始复用原有技术能力就能快速进阶3、懂业务更吃香竞争力翻倍单纯懂技术已不够2026年大厂更看重“技术业务”的复合型人才有垂直领域金融、医疗、工业等经验者能精准定位模型落地痛点薪资比纯技术岗高出30%以上更重要的是即便没有转型需求用AI大模型工具为工作赋能、提升效率也已经成为80%企业的硬性要求——不会用大模型提效未来很可能被行业淘汰那么2026年小白/程序员该如何高效学习大模型很多人想入门大模型却陷入两大困境要么到处搜集零散资料不成体系越学越懵要么被收费高昂的课程割韭菜花了钱却学不到实战技能白白浪费时间走弯路。今天就给大家精心整理了一份2026年最新、免费、系统化的AI大模型学习资源包覆盖从零基础入门到商业实战、从理论沉淀到面试通关的全流程所有资料均已整理归档无需拼凑直接领取就能上手学习小白可照做程序员可进阶扫码免费领取全部内容1、大模型系统化学习路线这份学习路线结合2026年行业趋势和新手学习规律由行业专家精心设计从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶避免踩坑。2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、大模型学习书籍电子文档涵盖2026年最新技术要点包括基础入门、Transformer核心原理、Prompt工程、RAG实战、模型微调与部署等内容4、AI大模型最新行业报告报告包含腾讯、阿里、甲子光年等权威机构发布的核心内容还有2026年中文大模型基准测评报告、AI Agent行业研究报告等帮你站在行业前沿把握技术风口。5、大模型项目实战配套源码项目包含Deepseek R1、GPT项目、MCP项目、RAG实战等热门方向还有视频配套代码手把手教你从0到1完成项目开发既能练手提升技术又能丰富简历为求职和职业发展加分。6、2026大模型大厂面试真题2026年大模型面试已全面升级不再单纯考察基础原理而是转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容7、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2631298.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！