多模态大语言模型arxiv论文略读(九十)

news2025/7/25 9:46:58

在这里插入图片描述

Hybrid RAG-empowered Multi-modal LLM for Secure Data Management in Internet of Medical Things: A Diffusion-based Contract Approach

➡️ 论文标题:Hybrid RAG-empowered Multi-modal LLM for Secure Data Management in Internet of Medical Things: A Diffusion-based Contract Approach
➡️ 论文作者:Cheng Su, Jinbo Wen, Jiawen Kang, Yonghua Wang, Yuanjia Su, Hudan Pan, Zishao Zhong, M. Shamim Hossain
➡️ 研究机构: 广东工业大学、南京航空航天大学、广州中医药大学、沙特国王大学
➡️ 问题背景:随着云计算、物联网(IoT)和人工智能(AI)等先进技术的集成,医疗健康系统经历了快速的发展,特别是互联网医疗事物(IoMT)的兴起,使得医疗数据的收集、传输和分析变得更加智能和高效。然而,医疗数据的多模态性和分布式存储、数据安全和隐私问题、以及数据的新鲜度和质量,都是在IoMT中应用多模态大型语言模型(MLLMs)时面临的重大挑战。
➡️ 研究动机:为了应对上述挑战,研究团队提出了一种混合检索增强生成(RAG)赋能的医疗MLLM框架,旨在通过跨链技术实现安全的数据传输,利用混合多模态RAG提高数据检索和分析的质量,同时通过合同理论激励机制鼓励医疗数据持有者分享高质量的数据,从而提高医疗数据管理的效率和安全性。
➡️ 方法简介:研究团队设计了一种基于跨链技术的混合RAG-empowered MLLM框架,该框架通过多模态RAG模块和合同理论激励机制,实现了医疗数据的安全、高效管理和分析。此外,研究还引入了信息年龄(AoI)作为数据新鲜度的评估指标,并采用生成扩散模型(GDM)和深度强化学习(DRL)算法来确定最优的合同设计,以适应数据共享的动态环境。
➡️ 实验设计:研究在多个医疗数据集上进行了实验,验证了所提出的混合RAG-empowered MLLM框架的有效性。实验结果表明,该框架在提高数据管理的安全性和效率方面表现优异,特别是在数据新鲜度评估和合同设计优化方面,相比传统的DRL方案,性能提升了20.35%。

Human-like object concept representations emerge naturally in multimodal large language models

➡️ 论文标题:Human-like object concept representations emerge naturally in multimodal large language models
➡️ 论文作者:Changde Du, Kaicheng Fu, Bincheng Wen, Yi Sun, Jie Peng, Wei Wei, Ying Gao, Shengpei Wang, Chuncheng Zhang, Jinpeng Li, Shuang Qiu, Le Chang, Huiguang He
➡️ 研究机构: 中国科学院自动化研究所、中国科学院脑认知与脑启发智能技术重点实验室、中国科学院脑科学与智能技术卓越创新中心、中国科学院大学、华南理工大学自动化科学与工程学院
➡️ 问题背景:人类对自然物体的概念化和分类是认知科学和神经科学的核心问题,提供了对人类感知和认知的重要见解。近年来,大规模语言模型(LLMs)的快速发展引发了关于这些模型是否也能通过接触大量语言和多模态数据来发展人类类似的对象表示的有趣问题。
➡️ 研究动机:尽管深度学习系统的认知合理性引发了广泛讨论,但一个关键问题仍未解决:是否可以在没有特定任务训练的情况下自然地出现人类类似的心理表示?本研究旨在通过数据驱动的方法,探讨LLMs(如ChatGPT-3.5)和多模态LLMs(如Gemini Pro Vision)是否能够发展出人类类似的概念表示,特别是在自然物体方面。
➡️ 方法简介:研究团队采用了一种新颖的数据驱动方法,通过收集大规模的三元组相似性判断数据集,来揭示LLMs和MLLMs中的核心维度。这些数据集包括470万次三元组判断,涉及1,854个自然物体。通过使用稀疏正相似性嵌入(SPoSE)方法,研究团队识别出了66个稀疏、非负的维度,这些维度能够很好地预测单次试验行为和物体对之间的相似性评分。研究还通过比较模型嵌入与人类认知的核心维度,以及模型嵌入与大脑功能定义的类别选择性ROI(如EBA、PPA、RSC和FFA)中的神经活动模式,验证了这些嵌入的稳定性和预测能力。
➡️ 实验设计:研究团队首先从THINGS数据库中选择了1,854个日常生活中常见的活体和非活体物体。然后,通过三元组“不同项”任务收集了大规模的行为相似性判断数据集。为了验证嵌入的有效性,研究团队使用了自然场景fMRI数据集(NSD)和表征相似性分析(RSA)方法,评估了模型嵌入在未见过的数据集上的泛化能力和与大脑神经活动的相关性。实验结果表明,LLMs和MLLMs的嵌入在预测行为和重建表征空间方面表现出色,且与人类的嵌入有显著的相似性。

ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities

➡️ 论文标题:ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities
➡️ 论文作者:Chenming Zhu, Tai Wang, Wenwei Zhang, Kai Chen, Xihui Liu
➡️ 研究机构: The University of Hong Kong、Shanghai AI Laboratory
➡️ 问题背景:尽管3D视觉定位领域取得了显著进展,但当前的模型仍然依赖于显式的文本描述来定位对象,并缺乏从隐式指令中推理人类意图的能力。例如,模型无法处理像“我渴了,可以给我点喝的吗?”这样的隐式指令。
➡️ 研究动机:为了弥补这一差距,并推动具身代理在3D世界中的理解和交互能力,研究团队提出了一个新的任务——3D推理定位(3D Reasoning Grounding),并引入了一个新的基准数据集ScanReason。该任务要求模型在预测目标对象的3D位置之前,对问题和3D环境进行联合推理。
➡️ 方法简介:研究团队设计了一个新的框架ReGround3D,该框架由视觉中心推理模块和3D定位模块组成,其中包含几何增强的回看机制。视觉中心推理模块利用多模态大语言模型(MLLM)对3D场景和指令进行联合推理,并预测一个特殊的标记,该标记包含目标对象的语义和位置信息。3D定位模块使用标记的隐藏嵌入来定位目标对象,通过回看3D场景的细粒度表示。此外,研究团队还提出了一个链式定位机制(Chain-of-Grounding, CoG),在推理和定位之间交替进行多轮操作,以增强3D推理定位能力。
➡️ 实验设计:在提出的ScanReason基准数据集上进行了广泛的实验,该数据集包含超过10K个问题-答案-3D边界框对,涉及五种推理类型:空间推理、功能推理、逻辑推理、情感推理和安全推理。实验设计了不同类型的复杂问题,以全面评估模型在3D推理定位任务中的表现。实验结果验证了ReGround3D的有效性。

Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

➡️ 论文标题:Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time
➡️ 论文作者:Sanjoy Chowdhury, Sayan Nag, Subhrajyoti Dasgupta, Jun Chen, Mohamed Elhoseiny, Ruohan Gao, Dinesh Manocha
➡️ 研究机构: University of Maryland, College Park、University of Toronto、Mila and Université de Montréal、King Abdullah University of Science and Technology (KAUST)
➡️ 问题背景:当前的多模态大语言模型(Multi-modal Large Language Models, MLLMs)在处理多模态内容方面取得了显著进展,但大多数研究仍集中在需要粗粒度理解的任务上,如图像和音频的描述和问答。然而,对于需要细粒度时空理解的音频-视觉任务,如音频引导的图像定位、图像引导的音频时间定位和音频-视觉事实核查,现有模型的表现仍有待提高。
➡️ 研究动机:为了填补这一研究空白,研究团队提出了Meerkat,这是一个具备细粒度时空理解能力的音频-视觉大语言模型。Meerkat旨在通过引入新的模态对齐模块和跨模态注意力一致性模块,增强模型在处理复杂音频-视觉任务时的表现,从而推动多模态理解的边界。
➡️ 方法简介:Meerkat通过两个关键模块实现其强大的细粒度理解能力:模态对齐模块(Modality Alignment Module, AVOpT)和跨模态注意力一致性模块(Cross-Modal Attention Consistency Enforcement Module, AVACE)。AVOpT模块基于最优传输理论,学习图像和音频补丁之间的弱监督对齐;AVACE模块则通过限制跨模态注意力图在目标对象的边界内,实现区域级别的强监督对齐。此外,研究团队还构建了一个包含300万指令调优样本的大型数据集AVFIT,以及一个统一五个音频-视觉任务的基准测试套件MeerkatBench。
➡️ 实验设计:研究团队在五个音频-视觉任务上进行了广泛的实验,包括音频引导的图像定位、图像引导的音频时间定位、音频-视觉事实核查、音频-视觉问答和音频-视觉描述。实验结果表明,Meerkat在所有任务上均取得了当前最佳的性能,相对改进率最高达到37.12%。

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

➡️ 论文标题:A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding
➡️ 论文作者:Jinghui Lu, Haiyang Yu, Yanjie Wang, Yongjie Ye, Jingqun Tang, Ziwei Yang, Binghong Wu, Qi Liu, Hao Feng, Han Wang, Hao Liu, Can Huang
➡️ 研究机构: ByteDance Inc.、Fudan University
➡️ 问题背景:当前的文档理解方法在结合光学字符识别(OCR)提取的文本和空间布局时,存在生成过长的文本序列或未能充分利用大型语言模型(LLMs)的自回归特性等问题。这些问题限制了模型在文档理解任务中的性能,尤其是在处理视觉丰富的文档时。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的方法——LayTextLLM,该方法通过将每个边界框映射到单个嵌入,并将其与文本交织,从而有效地解决了序列长度问题,同时充分利用了LLMs的自回归特性。研究旨在提高文档理解任务中的关键信息提取(KIE)和视觉问答(VQA)性能。
➡️ 方法简介:LayTextLLM引入了空间布局投影器(SLP),将OCR提取的四维坐标转换为单个嵌入,然后与文本交织。此外,研究团队提出了两个定制的训练任务:布局感知的下一个词预测(Layout-aware Next Token Prediction)和打乱的OCR监督微调(Shuffled-OCR Supervised Fine-tuning),以增强模型的布局和文本对齐能力及泛化能力。
➡️ 实验设计:实验在多个公开数据集上进行,包括文档密集描述(DDD)、DocVQA、InfoVQA、ChartQA、VisualMRC、SROIE、CORD和FUNSD等。实验设计了不同的训练集组合,以评估LayTextLLM在不同任务和设置下的性能。结果表明,LayTextLLM在KIE任务上比现有方法提高了27.2%,在VQA任务上提高了12.0%。此外,LayTextLLM在零样本和监督微调场景下均表现出色,特别是在处理高分辨率输入时,能够保留更多文本细节,同时减少输入序列长度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2386403.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(1-6-1)Java 集合

目录 0.知识概述: 1.集合 1.1 集合继承关系类图 1.2 集合遍历的三种方式 1.3 集合排序 1.3.1 Collections实现 1.3.2 自定义排序类 2 List 集合概述 2.1 ArrayList (1)特点 (2)常用方法 2.2 LinkedList 3…

spring5-配外部文件-spEL-工厂bean-FactoryBean-注解配bean

spring配外部文件 我们先在Spring里配置一个数据源 1.导c3p0包,这里我们先学一下hibernate持久化框架&#xff0c;以后用mybites. <dependency><groupId>org.hibernate</groupId><artifactId>hibernate-core</artifactId><version>5.2.…

安卓开发用到的设计模式(2)结构型模式

安卓开发用到的设计模式&#xff08;2&#xff09;结构型模式 文章目录 安卓开发用到的设计模式&#xff08;2&#xff09;结构型模式1. 适配器模式&#xff08;Adapter Pattern&#xff09;2. 装饰器模式&#xff08;Decorator Pattern&#xff09;3. 代理模式&#xff08;Pro…

JavaWeb:SpringBoot配置优先级详解

3种配置 打包插件 命令行 优先级 SpringBoot的配置优先级决定了不同配置源之间的覆盖关系&#xff0c;遵循高优先级配置覆盖低优先级的原则。以下是详细的优先级排序及配置方法说明&#xff1a; 一、配置优先级从高到低排序 1.命令行参数 优先级最高&#xff0c;通过keyvalu…

故障率预测:基于LSTM的GPU集群硬件健康监测系统(附Prometheus监控模板)

一、GPU集群健康监测的挑战与价值 在大规模深度学习训练场景下&#xff0c;GPU集群的硬件故障率显著高于传统计算设备。根据2023年MLCommons统计&#xff0c;配备8卡A100的服务器平均故障间隔时间&#xff08;MTBF&#xff09;仅为1426小时&#xff0c;其中显存故障占比达38%&…

【b站计算机拓荒者】【2025】微信小程序开发教程 - chapter3 项目实践 -1 项目功能描述

1 项目功能描述 # 智慧社区-小程序-1 欢迎页-加载后端&#xff1a;动态变化-2 首页-轮播图&#xff1a;动态-公共栏&#xff1a;动态-信息采集&#xff0c;社区活动&#xff0c;人脸检测&#xff0c;语音识别&#xff0c;心率检测&#xff0c;积分商城-3 信息采集页面-采集人数…

FFmpeg 安装包全攻略:gpl、lgpl、shared、master 区别详解

这些 FFmpeg 安装包有很多版本和变种&#xff0c;主要区别在于以下几个方面&#xff1a; ✅ 一、从名称中看出的关键参数&#xff1a; 1. 版本号 master&#xff1a;开发版&#xff0c;最新功能&#xff0c;但可能不稳定。n6.1 / n7.1&#xff1a;正式版本&#xff0c;更稳定…

AI浪潮下,媒体内容运营的五重变奏

算法驱动的个性化推荐 在信息爆炸的时代,用户面临着海量的内容选择,如何让用户快速找到感兴趣的人工智能内容,成为媒体运营的关键。算法驱动的个性化推荐模式应运而生,它通过分析用户的行为数据,如浏览历史、点赞、评论、搜索关键词等,构建用户兴趣画像 ,再依据画像为用…

WindTerm 以 SSH 协议的方式通过安恒明御堡垒机间接访问服务器

1. 配置堡垒机秘钥 创建公私钥ssh-keygen -t rsa -b 4096执行完该命令后按照提示一路回车就能够创建出公私钥注意&#xff1a;在创建过程中会让你指定秘钥的存储位置以及对应的密码&#xff0c;最好自行指定一下 id_rsa 是私钥id_rsa.pub 是公钥 在堡垒机中指定创建好的私钥 …

通过现代数学语言重构《道德经》核心概念体系,形成一个兼具形式化与启发性的理论框架

以下是对《道德经》的数学转述尝试&#xff0c;通过现代数学语言重构其核心概念&#xff0c;形成一个兼具形式化与启发性的理论框架&#xff1a; 0. 基础公理体系 定义&#xff1a; 《道德经》是一个动态宇宙模型 U(D,V,Φ)&#xff0c;其中&#xff1a; D 为“道”的无限维…

邂逅Node.js

首先先要来学习一下nodejs的基础&#xff08;和后端开发有联系的&#xff09; 再然后的学习路线是学习npm&#xff0c;yarn&#xff0c;cnpm&#xff0c;npx&#xff0c;pnpm等包管理工具 然后进行模块化的使用&#xff0c;再去学习webpack和git&#xff08;版本控制工具&…

【慧游鲁博】【8】前后端用户信息管理:用户基本信息在小程序端的持久化与随时获取

文章目录 本次更新整体流程概述1. 用户登录流程前端登录处理 (login.vue)后端登录处理 (AuthServiceImpl.java) 2. 用户信息存储机制前端状态管理 (member.js) 3. 后续请求的身份验证登录拦截器 (LoginInterceptor.java)前端请求携带token 4. 获取用户信息获取用户信息接口 (Us…

SpringBoot返回xml

默认情况下引入web依赖后自带了JackJson 返回JSON数据 你也可以引入fastJSON 那么方便使用可以用JSON.xxx 如果希望Boot默认返回xml数据 <dependency><groupId>com.fasterxml.jackson.dataformat</groupId><artifactId>jackson-dataformat-xml<…

【案例篇】 实现简单SSM工程-后端

简介 本篇文章将带你从0到1的实现一个SSM项目&#xff0c;通过此案例可以让你在项目中对SpringBoot的使用有一个更加详细的认识&#xff0c;希望这个简单的案例能够帮到你。文章内容若存在错误或需改进的地方&#xff0c;欢迎大家指正&#xff01;若对操作有任何疑问欢迎留言&a…

零基础学习计算机网络编程----网络基本知识

目录 1. 计算机网络发展 1.1 网络发展 1.2 媒介 2 认识协议 2.1 为什么要有协议 2.2 协议的本质 3 网络协议的初识 3.1 什么是协议分层 3.2 为什么会有 4. OSI七层模型 4.1 定义 5. TCP/IP五层(或四层)模型 5.1 有什么 6. 网络传输基本流程 6.1 网络传输流程图…

Zynq和Microblaze的区别和优势

Zynq芯片包含了一颗双核ARM Cortex-A9处理器&#xff0c;这是一颗“硬”处理器---它是芯片上专用 而且优化过的硅片原件。 MicroBlaze为“软”处理器&#xff0c;它是由可编程逻辑部分的单元组合而成的&#xff0c; 也就是说&#xff0c;一个 软处理器的实现和部署在FPGA的逻…

FastAPI 支持文件下载

FastAPI 支持文件下载 FastAPI 支持文件上传 Python 获取文件类型 mimetype 文章目录 1. 服务端处理1.1. 下载小文件1.2. 下载大文件&#xff08;yield 支持预览的&#xff09;1.3. 下载大文件&#xff08;bytes&#xff09;1.4. 提供静态文件服务 2. 客户端处理2.1. 普通下载2…

CNN卷积神经网络到底卷了啥?

参考视频&#xff1a;卷积神经网络&#xff08;CNN&#xff09;到底卷了啥&#xff1f;8分钟带你快速了解&#xff01; 我们知道&#xff1a; 图片是由像素点构成&#xff0c;即最终的成像效果是由背后像素的颜色数值所决定 在Excel中&#xff1a;有这样一个由数值0和1组成的66…

MIT 6.S081 2020Lab5 lazy page allocation 个人全流程

文章目录 零、写在前面一、Eliminate allocation from sbrk()1.1 说明1.2 实现 二、Lazy allocation2.1 说明2.2 实现 三、Lazytests and Usertests3.1 说明3.2 实现3.2.1 lazytests3.2.2 usertests 零、写在前面 可以阅读下4.6页面错误异常 像应用程序申请内存&#xff0c;内…

C++初阶-list的使用2

目录 1.std::list::splice的使用 2.std::list::remove和std::list::remove_if的使用 2.1remove_if函数的简单介绍 基本用法 函数原型 使用函数对象作为谓词 使用普通函数作为谓词 注意事项 复杂对象示例 2.2remove与remove_if的简单使用 3.std::list::unique的使用 …