RAGAS中RAG评估指标简单介绍

news2026/5/18 0:34:50

一、RAGAS 的评估指标分工评估环节RAGAS 指标衡量什么计算公式逻辑检索评估上下文精度 (Context Precision)检索结果中有用信息是否排在前列衡量排序质量相关文档数 / 检索文档总数上下文召回率 (Context Recall)标准答案中的信息有多少被检索到了衡量信息覆盖率可从上下文推断的claims数 / ground truth总claims数上下文相关性 (Context Relevancy)检索到的上下文与用户问题的相关程度惩罚冗余信息。不看答案只看检索到的信息和用户问题的相关程度得分有用句数/文档句数。如果检索了一堆不相关的东西到上下文即使答案正确这个指标的得分也不会高。提取关键句子数 / 上下文总句子数生成评估忠实度 (Faithfulness)生成答案是否完全基于检索到的上下文检测幻觉。得分被支持的声明数/总声明数如果检索到的是错误的文档块只要回答是完全基于检索的上下文那么忠实度也为1。可从上下文推断的claims数 / 答案总claims数答案相关性 (Answer Relevancy)生成答案是否直接回答了用户问题惩罚不完整或冗余。这个的设计很巧妙不需要检索文档只需要原始问题和大模型生成的答案测法是让llm看着答案反向才这个答案回答的是什么问题生成好几个问题然后用embedding模型算这些反向推测出来的问题和原始问题的余弦相似度取平均。基于生成的反向问题与原始问题的语义相似度二、表格中的名词解释1.标准答案Ground Truth通俗解释Ground Truth 就是标准答案是你在评估时用来对比的“黄金标准”。在RAG评估中Ground Truth 通常由人工提前标注好代表针对某个问题的最正确、最完整的答案。举例问题巴黎是哪个国家的首都Ground Truth巴黎是法国的首都。你RAG系统生成的答案会以这个 Ground Truth 为参照来评估生成的内容是否正确、信息是否完整。2. “主张” (Claims)通俗解释主张就是一个独立的、不可再分的事实陈述。它通常是包含“主语-谓语-宾语”的完整短句。把 Ground Truth 拆解成主张是为了精确评估信息覆盖情况。如果不拆分直接对比两段长文本很难知道模型是漏掉了哪个具体信息点。举例假设 Ground Truth 是巴黎是法国的首都也是欧洲重要的文化中心。这句话可以拆成两个独立的主张主张编号主张内容说明主张1巴黎是法国的首都。完整的事实陈述主张2巴黎是欧洲重要的文化中心。另一个独立的事实为什么主张必须是“原子化”的因为评估需要粒度足够细。如果Ground Truth中包含了5个事实点而检索上下文只覆盖了其中3个那上下文召回率就是3/5 0.6。不拆分成主张就无法量化这种部分覆盖的情况。3. 如何从 Ground Truth 中提取主张在RAGAS的实现中这一步通常由LLM大语言模型自动完成不需要人工操作。RAGAS会调用你配置的LLM发送一个提示词Prompt要求模型将给定的Ground Truth拆解成多个独立的短句。给LLM的提示词示意请将以下标准答案拆解成多个独立的、原子化的事实主张。每个主张应是一个完整的短句不可再分。标准答案巴黎是法国的首都也是欧洲重要的文化中心塞纳河贯穿市中心。期望输出巴黎是法国的首都。巴黎是欧洲重要的文化中心。塞纳河贯穿巴黎市中心。4. 完整示例从 Ground Truth 到召回率计算假设你的RAG系统要回答请介绍图灵在二战期间的贡献。步骤内容Ground Truth (标准答案)图灵在二战期间破解了德国Enigma密码并在布莱切利公园设计了Bombe机。提取主张 (LLM自动完成)主张1图灵在二战期间破解了德国Enigma密码。主张2图灵在布莱切利公园设计了Bombe机。检索上下文 (你的系统返回)图灵在布莱切利公园工作他的Bombe机极大加速了Enigma密码的破译。逐一验证主张1破解了Enigma密码→ 检索上下文中提到了Enigma密码的破译→ ✅被覆盖主张2设计了Bombe机→ 检索上下文中提到他的Bombe机→ ✅被覆盖计算上下文召回率2 / 2 1.0(100%)关键注意事项提取的准确性取决于LLM能力弱模型可能拆分不合理过粗或过细影响评估准确性。建议使用GPT-4、Claude-3或同等级别的模型来执行提取。主张的粒度需要一致性理想的主语应该是名词短语而非代词。例如主张应为巴黎是法国的首都而非它是法国的首都否则后续语义匹配容易出错。语义匹配 vs 字面匹配验证主张是否被覆盖时不是简单做字符串包含判断而是计算语义相似度。例如破解了Enigma密码和Enigma密码的破译语义相同会被判定为覆盖。简单总结Ground Truth是评估用的标准答案主张是把标准答案拆解成的独立事实点。RAGAS用这些主张来精确计算检索器到底找回了多少关键信息也就是上下文召回率。检索分数低生成分数低→ 检索器没找回正确文档生成器也没有可用的信息检索分数高生成分数低→ 检索对了但生成器没有正确利用上下文需要优化Prompt或模型检索分数低生成分数高→ 这种情况很少见通常意味着生成器在依赖自身知识而非检索结果存在幻觉风险三、如何利用这些指标定位问题你可以把这四项指标看作一张“体检报告”通过它们的组合来分析系统瓶颈如果出现这种情况说明优化方向精确度低检索排序不佳有用的信息被淹没在无关内容里。优化向量检索模型、调整重排Rerank策略或修改分块方式。召回率低检索器漏掉了关键信息知识库覆盖不全。优化分块Chunk策略、增加检索数量Top-K或使用混合检索。忠实度低模型在“编答案”产生了幻觉。优化Prompt强调基于事实、更换更有纪律性的模型。相关性低模型理解能力不足答非所问或废话连篇。优化Prompt、提高检索质量或更换更强的模型。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2543065.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！