【读论文】HM-RAG:分层多智能体多模态检索增强生成

news2025/5/10 19:30:31

如何在多模态信息检索和生成中,通过协作式多智能体系统来处理复杂的多模态查询。传统的单代理RAG系统在处理需要跨异构数据生态系统进行协调推理的复杂查询时存在根本性限制:处理多种查询类型、数据格式异质性和检索任务目标的多样性;在视觉内容和文本内容之间建立一致的跨模态关联;以及在不同模态之间进行有效的信息合成。
HM-RAG的核心目标是解决上述问题,通过分层多智能体协作与多模态知识合成,实现复杂查询的动态分解、跨模态检索与答案精炼。其设计灵感来源于:

  • 多智能体系统:通过分工协作提升任务处理效率(如自动驾驶中的感知-决策-控制模块)。

  • 知识图谱增强:结合图结构的关系推理与向量检索的细粒度匹配,弥补单一知识表示的不足。

  • 动态实时性需求:引入网页检索代理,应对时效性敏感场景(如灾害事件中的实时社交媒体数据)。

研究方法

这篇论文提出了HM-RAG(Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation),用于解决多模态信息检索和生成中的复杂查询问题。具体来说,
在这里插入图片描述

1 多模态知识预处理

1.1 多模态文本知识生成

传统的多模态知识提取方法依赖预定义类别,难以识别新的视觉概念。该框架借助BLIP - 2框架,将视觉信息转化为文本表示。这一过程分为三个协同阶段:先通过层次化视觉编码生成图像特征,再利用可学习查询进行跨模态交互,最后进行上下文感知的文本生成,并通过上下文细化机制优化生成结果。最终将生成的文本与原始文本语料库整合,形成多模态文本知识库。

1.2 多模态知识图谱构建

利用VLMs生成的细化视觉描述和LLM的结构推理能力构建多模态知识图谱(MMKGs)。通过LightRAG框架进行实体关系提取和双级推理增强,将知识形式化为三元组,同时嵌入视觉数据存储位置,实现跨模态接地,有效降低语言模型产生幻觉的概率。

2 用于多意图查询的分解智能体

分解智能体是HM - RAG的关键组件,它能将复杂的多意图用户查询分解为多个可执行的子任务。通过任务特定的LLM提示策略,先判断查询是否包含多个意图,若是则将其分解为简单且逻辑相关的子问题,确保每个子问题能针对特定的数据模态或检索任务进行处理。

3 多源即插即用检索智能体

3.1 基于向量的检索智能体

基于向量的检索智能体用于细粒度信息检索。它通过计算查询与文档的语义相似度,从非结构化文本语料库中检索出最相关的文档,然后语言模型根据检索到的上下文生成答案。为保证答案的可靠性,采用确定性解码策略,降低幻觉风险。

3.2 基于图的检索智能体

基于图的检索智能体利用LightRAG的图遍历能力,在MMKGs上解决多跳语义查询。通过构建上下文感知子图,采用层次化搜索策略,结合图结构知识和向量表示,实现更高效、全面的信息检索,最后由轻量级LLM生成答案。

3.3 基于网络的检索智能体

基于网络的检索智能体利用Google Serper API获取实时信息,通过参数化API请求获取结构化结果。该组件通过实时事实验证、归因感知生成和自适应查询扩展等机制,提升生成文本的语义保真度和事实依据。

4 用于多答案精炼的决策智能体

4.1 一致性投票

决策智能体通过ROUGE - L和BLEU指标评估不同检索系统生成答案的语义一致性。若答案间相似度超过预定义阈值,使用轻量级LLM生成最终答案;若相似度低于阈值,则进入专家模型精炼阶段。

4.2 专家模型精炼

对于存在冲突的答案,利用LLMs、Multimodal LLMs(MLLMs)或Cot - based语言模型(Cot - LMs)整合多源证据,生成精炼的最终答案,确保答案既符合上下文逻辑又准确可靠。

实验设计

  1. ​数据集​​:实验在两个多模态推理基准上进行,包括复杂的科学问答(ScienceQA)和危机事件分类(CrisisMMD)。
    • ScienceQA:包含21,208个精心策划的例子,涵盖自然科学、社会科学和形式科学三个核心领域。
    • CrisisMMD:包含约35,000条社交媒体帖子,包含视觉和文本内容,适用于零样本适应模型的评估。
  2. ​实现细节​​:使用DeepSeek-R1-70B进行动态图构建,并通过Qwen2.5-7B的参数适应框架优化LightRAG的混合检索机制。决策精炼阶段使用GPT-4o处理ScienceQA数据集,使用GPT-4分析CrisisMMD数据集。所有多模态推理工作流在单个NVIDIA A800-80GB GPU上运行,支持图神经网络计算和检索增强生成任务的内存优化并行化。

结果与分析

  1. ​ScienceQA上的结果​​:HM-RAG在ScienceQA数据集上取得了93.73%的平均准确率,超过了之前最好的零样本VLM方法LLaMA-SciTune和GPT-4o,分别提高了4.11%和2.82%。与基于向量、图和网页的基线方法相比,HM-RAG分别提高了12.95%、12.71%和12.13%的绝对准确率。

  2. ​CrisisMMD上的结果​​:在CrisisMMD数据集上,HM-RAG的平均准确率为58.55%,比最强的基线GPT-4o提高了2.44%,比纯文本变体Qwen2.5-72B提高了3.44%。尽管仅使用了7B参数,但模型规模与性能提升呈非线性关系。

  3. ​定性分析​​:通过案例研究展示了HM-RAG在处理复杂模式和做出准确选择方面的能力。当多个检索代理都产生错误结果时,决策代理的高层思考能够导出正确答案。

总体结论

这篇论文提出了HM-RAG,一种新颖的分层多代理多模态检索增强生成框架,旨在解决复杂多模态查询处理和知识合成中的挑战。通过在ScienceQA和CrisisMMD基准上的广泛实验,HM-RAG在多模态问答和分类的准确性方面达到了最先进的水平,显著优于所有类别的基线方法。HM-RAG通过有效地解决多模态推理和知识合成中的关键挑战,为各种应用领域的信息检索和生成系统提供了更健壮和适应性强的解决方案。

论文评价

优点与创新

  1. ​分层多智能体架构​​:HM-RAG提出了一种新颖的分层多智能体框架,通过专门的智能体进行查询分解、多源检索和决策细化,实现了结构化、非结构化和图数据的动态知识合成。
  2. ​模块化设计​​:该框架将查询处理模块化为专门的智能体组件,便于扩展和高效的多模态检索。
  3. ​多源即插即用检索集成​​:通过标准化的接口动态组合异构多模态搜索策略,确保了跨不同搜索场景的领域无关适应性和互操作性。
  4. ​专家引导的细化过程​​:采用专家模型引导的细化过程,通过最小限度的专家监督提高了响应质量,确保操作效率和上下文精度。
  5. ​实验验证​​:在ScienceQA和CrisisMMD基准数据集上的广泛实验验证了HM-RAG的有效性,取得了最先进的性能。

不足与反思

  1. ​多模态推理和知识合成的关键挑战​​:尽管HM-RAG在多模态推理和知识合成方面取得了显著进展,但仍需进一步研究和解决这些领域的关键挑战。
  2. ​复杂查询处理的局限性​​:当前系统在处理需要同时处理向量、图和基于网络的数据库的复杂查询时仍存在局限性,未来需要进一步优化。
  3. ​实时信息检索的效率​​:虽然Web检索代理在实时信息检索方面表现出色,但在处理大规模数据和高并发请求时仍需进一步提高效率。

关键问题及回答

​问题1:HM-RAG框架中的分解代理是如何工作的?它如何处理复杂的多意图用户查询?​

分解代理是HM-RAG框架中的一个关键组件,旨在将复杂的多意图用户查询分解为连贯且可执行的子任务。具体来说,分解代理通过以下步骤工作:

  1. ​分解必要性判断​​:首先,分解代理使用一个二进制决策提示,指示大型语言模型(LLM)将输入问题分类为单意图或多意图。如果输出是多意图,查询将进入分解阶段;否则,直接返回原问题。
  2. ​意图分解​​:接下来,LLM根据查询的意图将其分解为候选子问题。具体来说,LLM使用一个结构化提示:“根据其意图,将原始问题的推理步骤分解为2到3个简单且逻辑上相连的子问题,同时保留原始问题中的关键词。”

通过这种层次化解析机制,分解代理能够识别用户查询的底层结构并将其分解为原子单元,每个单元针对特定的数据模态或检索任务。这种方法显著提高了系统处理复杂查询的能力。

​问题2:HM-RAG框架中的多源即插即用检索代理是如何实现异构多模态搜索策略的?​

HM-RAG框架通过一个模块化的多代理检索框架实现异构多模态搜索策略。该框架包括三个专门的检索代理:向量检索代理、图检索代理和网页检索代理。每个代理都通过标准化接口进行连接,确保系统在不同数据源之间的灵活性和高效性。

  1. ​向量检索代理​​:用于细粒度信息检索,通过计算查询的语义嵌入并使用余弦相似度度量文档与查询的相似性,检索最相关的文档片段。然后,语言模型在检索到的上下文中生成答案。
  2. ​图检索代理​​:利用LightRAG的图遍历能力,解析多跳语义查询。通过动态检索实体和关系,构建上下文感知的子图,并使用双向知识增强框架进行跨模态推理。
  3. ​网页检索代理​​:通过Google Search API获取实时信息,适用于需要最新数据的任务。API返回的结构化结果包括标题、摘要、URL和位置排名元数据。

这种模块化设计不仅增强了系统的灵活性,还确保了任务特定的优化目标,使得框架能够适应各种应用和数据模态。

​问题3:HM-RAG框架中的决策代理是如何通过一致性投票和专家模型精炼来提高答案质量的?​

决策代理是HM-RAG框架中的另一个关键组件,负责评估和精炼来自不同检索代理的答案。具体过程如下:

  1. ​一致性投票​​:决策代理使用ROUGE-L和BLEU指标评估向量、图和网页检索系统生成的答案的语义一致性。首先,为每个答案生成摘要,然后计算摘要之间的相似度。如果答案相似度超过预定阈值,则使用轻量级语言模型进行最终答案的精炼;否则,进入下一步。
  2. ​专家模型精炼​​:对于相似度低于阈值的答案,决策代理使用大型语言模型(LLM)、多模态LLM或基于Cot的语言模型进行综合。这些模型处理原始查询和检索到的证据,生成最终的精炼答案。

通过这种一致性投票和专家模型精炼的方法,决策代理能够显著提高答案的质量,确保生成的答案既具有上下文一致性,又具有事实准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2340686.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

文件操作和IO(上)

绝对路径和相对路径 文件按照层级结构进行组织(类似于数据结构中的树型结构),将专门用来存放管理信息的特殊文件称为文件夹或目录。对于文件系统中文件的定位有两种方式,一种是绝对路径,另一种是相对路径。 绝对路径…

JavaFX深度实践:从零构建高级打地鼠游戏(含多物品与反馈机制)

大家好!经典的“打地鼠”游戏是许多人童年的回忆,也是学习 GUI 编程一个非常好的切入点。但仅仅是“地鼠出来就打”未免有些单调。今天,我们来点不一样的——用 JavaFX 打造一个高级版的打地鼠游戏!在这个版本中,洞里钻…

Python 简介与入门

目录 一、Python 初识 1、Python 的优势 2、Python 的特性 3、Python 的应用领域 二、Linux 环境中安装 Python 1、下载 Python3.11.6 2、安装依赖包 3、解压 Python 压缩包 4、安装 Python 5、编译及安装 6、建立软链接 7、测试 Python3 运行 8、设置国内 pip 更…

理解RAG第六部分:有效的检索优化

在RAG系统中,识别相关上下文的检索器组件的性能与语言模型在生成有效响应方面的性能同样重要,甚至更为重要。因此,一些改进RAG系统的努力将重点放在优化检索过程上。 从检索方面提高RAG系统性能的一些常见方法。通过实施高级检索技术&#x…

实训Day-2 流量分析与安全杂项

目录 实训Day-2-1流量分析实战 实训目的 实训任务1 SYN半链接攻击流量分析 实训任务2 SQL注入攻击流量分析一 实训任务3 SQL注入攻击流量分析二 实训任务4 Web入侵溯源一 实训任务5 Web入侵溯源二 ​编辑 实训Day-2-1安全杂项实战 实训目的 实训任务1 流量分析 FTP…

几种电气绝缘类型

1. 基本绝缘 1.1 绝缘等级 1.2 I类设备 2. 附加绝缘 3. 双重绝缘 4. 加强绝缘 5. 功能性绝缘 1. 基本绝缘 用于防止触及带电部件的初级保护,该防护是由绝缘材料完成的 基本绝缘的目的在于为防电击提供一个基本的保护,以避免触电的危险,不过此类绝缘只能保证正常状态下…

char32_t、char16_t、wchar_t 用于 c++ 语言里存储 unicode 编码的字符,给出它们的具体定义

&#xff08;1&#xff09; #include <iostream> #include <string>int main() { std::u16string s u"C11 引入 char16_t"; // 定义 UTF-16 字符串for (char16_t c : s) // 遍历输出每个 char16_t 的值std::cout << std::hex << (…

Java Set/List 知识点 Java面试 基础面试题

Java Set/List 知识点 Set与List区别 List 有序、值可重复,内部数据结构 Obejct[ ] 数组Set 无序、值不重复,内部数据结构 HashMap keyobject value固定new Object() ArrayList 有序存储元素允许元素重复&#xff0c;允许存储 null 值支持动态扩容非线程安全 HashSet、LinkedHa…

Oracle Database Resident Connection Pooling (DRCP) 白皮书阅读笔记

本文为“Extreme Oracle Database Connection Scalability with Database Resident Connection Pooling (DRCP)”的中文翻译加阅读笔记。觉得是重点的就用粗体表示了。 白皮书版本为March 2025, Version 3.3&#xff0c;副标题为&#xff1a;Optimizing Oracle Database resou…

FastAPI WebSocket 聊天应用详细教程

项目简介 这是一个基于 FastAPI 和 WebSocket 实现的实时聊天应用&#xff0c;支持一对一聊天、离线消息存储等功能。 技术栈 后端&#xff1a;FastAPI (Python)前端&#xff1a;HTML、JavaScript、CSS通信&#xff1a;WebSocket认证&#xff1a;简单的 token 认证 项目结构…

vue3+canvas裁剪框样式【前端】

目录 canvas绘制裁剪框&#xff1a;拖拽改变框的大小&#xff1a;圆圈样式&#xff1a;方块样式&#xff1a; canvas绘制裁剪框&#xff1a; // 绘制裁剪框 const drawCropRect (ctx: CanvasRenderingContext2D): void > {if (cropRect.value.width > 0 && crop…

软件功能测试和非功能测试有什么区别和联系?

软件测试是保障软件质量的核心环节&#xff0c;而软件功能测试和非功能测试作为测试领域的两大重要组成部分&#xff0c;承担着不同但又相互关联的职责。 软件功能测试指的是通过验证软件系统的各项功能是否按照需求规格说明书来正确实现&#xff0c;确保软件的功能和业务流程…

10_C++入门案例习题: 结构体案例

案例描述 学校正在做毕设项目&#xff0c;每名老师带领5个学生&#xff0c;总共有3名老师&#xff0c;需求如下 设计学生和老师的结构体&#xff0c;其中在老师的结构体中&#xff0c;有老师姓名和一个存放5名学生的数组作为成员 学生的成员有姓名、考试分数&#xff0c; 创建…

快速定位达梦缓存的执行计划并清理

开发告诉你一个sql慢&#xff0c;你想看看缓存中执行计划时&#xff0c;怎么精准快速定位&#xff1f; 可能一般人通过文本内容模糊搜索 select cache_item, substr(sqlstr,1,60)stmt from v$cachepln where sqlstr like %YOUR SQL STRING%; 搜出来的内容比较多&#xff0c;研…

若依、vben-admin、三维可视化

对三维可视化&#xff0c;包括cesium、模型加载、GIS有关的项目和技术都可以私信&#xff0c;包括基础数据后台管理系统的搭建和配置

LLMs可在2位精度下保持高准确率

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

爆改 toxml 组件 支持数据双向绑定 解决数据刷新问题

GGGGGGGGGGGGGGGGGithub地址自行研究 sbfkcel/towxml: 微信小程序HTML、Markdown渲染库https://github.com/sbfkcel/towxml原组件是以导入数据渲染信息为目的、本文以AI数据返回小程序为模拟效果演示 默认情况只在ready 环节进行渲染静态资源 1、对传入数据容器的位置做处理 …

Unreal如何使用后处理材质实现一个黑屏渐变效果

文章目录 前言相机后期处理材质创建材质相机设置动态修改FadeAlpha参数使用示例最后前言 UE5 开发VR ,如何通过PostProcess轻松实现黑屏渐变效果 最简单的办法,其实是使用一个半球形模型,遮挡住相机,然后控制这个半球形遮罩的颜色透明度,至少Unity中默认的Tunneling是这么…

DB-GPT支持mcp协议配置说明

简介 在 DB-GPT 中使用 MCP&#xff08;Model Context Protocol&#xff09;协议&#xff0c;主要通过配置 MCP 服务器和智能体协作实现外部工具集成与数据交互。 开启mcp服务&#xff0c;这里以网页抓取为例 npx -y supergateway --stdio "uvx mcp-server-fetch" …

CoT-Drive:利用 LLM 和思维链提示实现自动驾驶的高效运动预测

25年3月来自澳门大学和 MIT 的论文“CoT-Drive: Efficient Motion Forecasting for Autonomous Driving with LLMs and Chain-of-Thought Prompting”。 准确的运动预测对于安全的自动驾驶 (AD) 至关重要。本研究提出 CoT-Drive&#xff0c;这是一种利用大语言模型 (LLM) 和思…