BookRAG:一份文档 = 一棵树
一张图谱一个智能体在真实企业场景中知识很少以整洁的问答对FAQ形式存在。它们更多隐藏在厚重的技术手册、API 文档、标准作业流程SOP和科研论文里——这些长文档在形态与逻辑上更接近**书籍。**它们包含章节与子小节、内嵌表格与公式以及清晰但复杂的层级布局。但现有的检索增强生成RAG系统——包括基于文本的图谱方法和基于版面分割的方案——往往因为结构与语义割裂、工作流静态僵化而效果不佳。本文或许能提供一个有价值的视角。为什么大多数 RAG 难以处理“类书籍”长文档两种传统思路及其局限当前处理这类文档主要有两大主流范式。1. 文本优先思路这种方法将所有内容扁平化为纯文本主要依赖光学字符识别OCR再使用 BM25、传统分块 RAG或 GraphRAG、RAPTOR 这类基于图谱的检索技术。GraphRAG 从文本中构建知识图谱并通过社区发现形成带摘要的层级聚类。RAPTOR 对文本分块进行递归聚类与摘要形成类树结构。2. 版面优先思路这种思路保留原始文档版式将内容分割为结构化块段落、表格、图片、公式再通过多模态检索或基于大模型的处理流水线如 DocETL处理相关块。图1现有方法与 BookRAG 在复杂文档问答上的对比。[来源]两种思路都很巧妙、也很实用但在处理类书籍文档时会遇到两个根本性问题。问题一结构与语义割裂文本优先路线会剥离文档的结构上下文丢失章节、子小节与表格等内容之间的关联——系统无法知道某张表格属于哪一节。版面优先路线保留了独立块但难以建模块之间、尤其是跨章节之间的关系导致多跳推理困难且不稳定。问题二僵化、一刀切的工作流真实问题从简单的定义查询到跨多章节的复杂对比不等。但大多数 RAG 流水线使用固定的查询处理流程导致简单问题效率低下复杂问题能力不足小结现有大多数文档级 RAG 要么忽略层级结构要么缺乏灵活、感知查询意图的检索工作流。结果就是经常漏检关键证据或检索效率低下在 DocETL 这类版面感知流水线中相比 BookRAG 还会带来更高的 Token 开销与延迟。BookR一棵树一张图谱一条链接一个智能体图2代表性方法与 BookRAG 对比。[来源]为解决上述局限研究者提出BookRAG——一个专为强层级结构文档设计的 RAG 框架。核心思路是构建原生文档索引 BookIndex将基于版面块的层级树与细粒度实体知识图谱通过图谱–树映射关联再使用受信息觅食理论启发的智能体检索器对查询分类并沿信息线索动态导航索引。整体上BookRAG 由三大关键模块构成。1. 构建 BookIndexBookIndex 将结构与语义融合在统一索引中。图3BookIndex 构建流程。该阶段包括从版面解析与章节过滤得到的树构建以及包含知识图谱构建与基于梯度的实体对齐的图谱构建。[来源]从 PDF 到树版面解析 章节过滤首先将文档解析为层级**树结构**表示目录与对应内容块。具体来说 先通过版面解析实验中使用 MinerU将 PDF 拆分为独立内容块。 每个块附带元信息标题、正文、表格以及字号、位置等版式细节。再用大模型判断哪些块是真正的标题并确定其在层级中的级别。之后系统按标题层级将所有块按序连接构建出一棵树。这棵树成为 BookIndex 的**结构骨架**支撑后续检索、推理与问答。从树到图谱多模态实体 GT-Link接着从树中抽取**知识图谱**捕获细粒度实体及其关系。具体流程 树构建完成后在每个节点上执行实体与关系抽取。文本块由大模型处理含图片块由多模态模型处理。表格与公式做专项处理对表格将行、列标题抽取为实体并通过ContainedIn关系链接到表格节点。 这些局部子图通过一种基于梯度的新型实体对齐方法合并为全局知识图谱系统分析重排模型的相似度分数识别明显的分数骤降点检测并统一共指实体。最终通过GT-Link图谱–树链接将两者关联把实体映射回其来源的树节点。最终形成结构化三元组B (T, G, M)——树Tree、图谱Graph、映射Mapping。特别地GT-Link 在图谱与树之间建立双向桥梁 从图谱中任意实体可回溯到其来源的精确树节点章节、表格、段落 从树中任意章节可展示其包含的实体。 这种设计让结构与语义紧密耦合——系统不仅知道“是什么”还知道“在文档的哪里”。2. 基于梯度的更精准实体对齐为保证知识图谱上的高质量推理BookRAG 使用基于梯度的实体对齐方法。不同于对所有实体做平方级别的两两比较BookRAG 将实体对齐重构为对每个新实体做增量查找。 在单文档干净实体对齐场景下每当抽取新实体系统判断它是否只是已有实体的别名。做法是 从向量库召回候选列表 → 用打分模型排序 → 检查相似度分数是否出现明显骤降。若出现明显骤降系统隔离高置信候选集只有一个实体 → 直接合并多个实体 → 调用大模型选择标准实体并合并若无明显骤降 → 作为独立实体这种基于梯度的方法避免了全量两两比对的高昂开销同时保持图谱简洁紧凑——将“LLM”与“大语言模型”这类变体统一到单个节点。3. 基于智能体的自适应检索图4BookRAG 中基于智能体的检索通用流程包含基于智能体的规划、检索与生成。[来源]依托**信息觅食理论IFT**BookRAG 引入智能体根据问题类型动态调整检索策略单跳直接事实查询多跳需要跨章节推理全局聚合需要遍历整篇文档图5BookRAG 算子库与来自 MMLongBench 数据集的执行示例 (a) 四类算子公式器、选择器、推理器、合成器可视化 (b) 单跳查询的执行轨迹展示智能体规划与分步算子执行。[来源]智能体生成由模块化算子组成的动态计划 有的用于追踪信息线索、定位相关片段 有的用于过滤块 有的用于推理或合成最终答案。每个查询都根据需求走定制化路径。这种设计让 BookRAG 在超长复杂文档上也能平衡精度与效率。案例分析图6来自 MMLongBench 与 Qasper 的三类查询单跳、多跳、全局聚合案例。 青色BookRAG 生成的正确内容 灰色内部过程与省略的无关部分。[来源]图6 完整展示 BookRAG 如何处理三类查询单跳缩小搜索空间用户提出直白事实问题。BookRAG 先用Extract算子识别相关实体再用Select_by_Entity过滤树结构将推理范围从 134 个节点缩小到 24 个。随后执行Graph_Reasoning与Text_Reasoning打分用Skyline_Ranker选出最终 8 个高置信节点生成答案。全局聚合精准过滤与统计问题需要统计指定页码内的图片数量。BookRAG 用Filter_Range选定第 1–10 页用Filter_Modal筛选图片块得到精确节点子集再通过Map与Reduce执行聚合操作如计数得到答案。多跳分解与攻克对需要对比两个系统的复杂查询智能体用Decompose算子拆分为子问题分别检索答案后再合成。实验评估实验不仅证明 BookRAG 能准确回答问题还突出另外两大优势检索覆盖度能否找到所有相关信息效率运行成本与响应速度完整评估细节可查阅参考文献。思考对于长文档结构化手册、技术报告、科研论文的复杂问答BookRAG 提供了经过基准验证的可靠设计方向。它构建原生文档索引 BookIndex融合层级树、知识图谱与 GT-Link将实体映射回结构位置并在此之上加入能追踪“信息线索”的智能体。但在真实落地中我有一点担忧当前实体对齐仅限于单文档内合并。在企业级场景中知识往往跨成百上千份文档跨文档实体统一是刚需。**在我看来一个很有前景的方向是 把BookIndex不仅当作检索索引更视为文档本身的原生知识层。**除问答外它还可支持一致性校验、结构化摘要、交叉引用修复等。 在这种视角下树–图谱结构成为文档生命周期的一部分而不只是后端 RAG 优化技巧。更进一步可以思考智能体的算子规划能否进化为**可学习的策略层**借助足够多的交互日志或强化学习系统可自我调优——决定使用哪些算子、何时简化、如何在保持表达能力的同时维持效率。这正是工业落地所需要的可控性。参考文献BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augmented Generation on Complex Documents-------------------------------------------------------------微信公众号算子之心
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2429563.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!