多模态大语言模型arxiv论文略读（九十）

在这里插入图片描述

Hybrid RAG-empowered Multi-modal LLM for Secure Data Management in Internet of Medical Things: A Diffusion-based Contract Approach

➡️ 论文标题：Hybrid RAG-empowered Multi-modal LLM for Secure Data Management in Internet of Medical Things: A Diffusion-based Contract Approach
➡️ 论文作者：Cheng Su, Jinbo Wen, Jiawen Kang, Yonghua Wang, Yuanjia Su, Hudan Pan, Zishao Zhong, M. Shamim Hossain
➡️ 研究机构: 广东工业大学、南京航空航天大学、广州中医药大学、沙特国王大学
➡️ 问题背景：随着云计算、物联网（IoT）和人工智能（AI）等先进技术的集成，医疗健康系统经历了快速的发展，特别是互联网医疗事物（IoMT）的兴起，使得医疗数据的收集、传输和分析变得更加智能和高效。然而，医疗数据的多模态性和分布式存储、数据安全和隐私问题、以及数据的新鲜度和质量，都是在IoMT中应用多模态大型语言模型（MLLMs）时面临的重大挑战。
➡️ 研究动机：为了应对上述挑战，研究团队提出了一种混合检索增强生成（RAG）赋能的医疗MLLM框架，旨在通过跨链技术实现安全的数据传输，利用混合多模态RAG提高数据检索和分析的质量，同时通过合同理论激励机制鼓励医疗数据持有者分享高质量的数据，从而提高医疗数据管理的效率和安全性。
➡️ 方法简介：研究团队设计了一种基于跨链技术的混合RAG-empowered MLLM框架，该框架通过多模态RAG模块和合同理论激励机制，实现了医疗数据的安全、高效管理和分析。此外，研究还引入了信息年龄（AoI）作为数据新鲜度的评估指标，并采用生成扩散模型（GDM）和深度强化学习（DRL）算法来确定最优的合同设计，以适应数据共享的动态环境。
➡️ 实验设计：研究在多个医疗数据集上进行了实验，验证了所提出的混合RAG-empowered MLLM框架的有效性。实验结果表明，该框架在提高数据管理的安全性和效率方面表现优异，特别是在数据新鲜度评估和合同设计优化方面，相比传统的DRL方案，性能提升了20.35%。

Human-like object concept representations emerge naturally in multimodal large language models

➡️ 论文标题：Human-like object concept representations emerge naturally in multimodal large language models
➡️ 论文作者：Changde Du, Kaicheng Fu, Bincheng Wen, Yi Sun, Jie Peng, Wei Wei, Ying Gao, Shengpei Wang, Chuncheng Zhang, Jinpeng Li, Shuang Qiu, Le Chang, Huiguang He
➡️ 研究机构: 中国科学院自动化研究所、中国科学院脑认知与脑启发智能技术重点实验室、中国科学院脑科学与智能技术卓越创新中心、中国科学院大学、华南理工大学自动化科学与工程学院
➡️ 问题背景：人类对自然物体的概念化和分类是认知科学和神经科学的核心问题，提供了对人类感知和认知的重要见解。近年来，大规模语言模型（LLMs）的快速发展引发了关于这些模型是否也能通过接触大量语言和多模态数据来发展人类类似的对象表示的有趣问题。
➡️ 研究动机：尽管深度学习系统的认知合理性引发了广泛讨论，但一个关键问题仍未解决：是否可以在没有特定任务训练的情况下自然地出现人类类似的心理表示？本研究旨在通过数据驱动的方法，探讨LLMs（如ChatGPT-3.5）和多模态LLMs（如Gemini Pro Vision）是否能够发展出人类类似的概念表示，特别是在自然物体方面。
➡️ 方法简介：研究团队采用了一种新颖的数据驱动方法，通过收集大规模的三元组相似性判断数据集，来揭示LLMs和MLLMs中的核心维度。这些数据集包括470万次三元组判断，涉及1,854个自然物体。通过使用稀疏正相似性嵌入（SPoSE）方法，研究团队识别出了66个稀疏、非负的维度，这些维度能够很好地预测单次试验行为和物体对之间的相似性评分。研究还通过比较模型嵌入与人类认知的核心维度，以及模型嵌入与大脑功能定义的类别选择性ROI（如EBA、PPA、RSC和FFA）中的神经活动模式，验证了这些嵌入的稳定性和预测能力。
➡️ 实验设计：研究团队首先从THINGS数据库中选择了1,854个日常生活中常见的活体和非活体物体。然后，通过三元组“不同项”任务收集了大规模的行为相似性判断数据集。为了验证嵌入的有效性，研究团队使用了自然场景fMRI数据集（NSD）和表征相似性分析（RSA）方法，评估了模型嵌入在未见过的数据集上的泛化能力和与大脑神经活动的相关性。实验结果表明，LLMs和MLLMs的嵌入在预测行为和重建表征空间方面表现出色，且与人类的嵌入有显著的相似性。

ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities

➡️ 论文标题：ScanReason: Empowering 3D Visual Grounding with Reasoning Capabilities
➡️ 论文作者：Chenming Zhu, Tai Wang, Wenwei Zhang, Kai Chen, Xihui Liu
➡️ 研究机构: The University of Hong Kong、Shanghai AI Laboratory
➡️ 问题背景：尽管3D视觉定位领域取得了显著进展，但当前的模型仍然依赖于显式的文本描述来定位对象，并缺乏从隐式指令中推理人类意图的能力。例如，模型无法处理像“我渴了，可以给我点喝的吗？”这样的隐式指令。
➡️ 研究动机：为了弥补这一差距，并推动具身代理在3D世界中的理解和交互能力，研究团队提出了一个新的任务——3D推理定位（3D Reasoning Grounding），并引入了一个新的基准数据集ScanReason。该任务要求模型在预测目标对象的3D位置之前，对问题和3D环境进行联合推理。
➡️ 方法简介：研究团队设计了一个新的框架ReGround3D，该框架由视觉中心推理模块和3D定位模块组成，其中包含几何增强的回看机制。视觉中心推理模块利用多模态大语言模型（MLLM）对3D场景和指令进行联合推理，并预测一个特殊的标记，该标记包含目标对象的语义和位置信息。3D定位模块使用标记的隐藏嵌入来定位目标对象，通过回看3D场景的细粒度表示。此外，研究团队还提出了一个链式定位机制（Chain-of-Grounding, CoG），在推理和定位之间交替进行多轮操作，以增强3D推理定位能力。
➡️ 实验设计：在提出的ScanReason基准数据集上进行了广泛的实验，该数据集包含超过10K个问题-答案-3D边界框对，涉及五种推理类型：空间推理、功能推理、逻辑推理、情感推理和安全推理。实验设计了不同类型的复杂问题，以全面评估模型在3D推理定位任务中的表现。实验结果验证了ReGround3D的有效性。

Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

➡️ 论文标题：Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time
➡️ 论文作者：Sanjoy Chowdhury, Sayan Nag, Subhrajyoti Dasgupta, Jun Chen, Mohamed Elhoseiny, Ruohan Gao, Dinesh Manocha
➡️ 研究机构: University of Maryland, College Park、University of Toronto、Mila and Université de Montréal、King Abdullah University of Science and Technology (KAUST)
➡️ 问题背景：当前的多模态大语言模型（Multi-modal Large Language Models, MLLMs）在处理多模态内容方面取得了显著进展，但大多数研究仍集中在需要粗粒度理解的任务上，如图像和音频的描述和问答。然而，对于需要细粒度时空理解的音频-视觉任务，如音频引导的图像定位、图像引导的音频时间定位和音频-视觉事实核查，现有模型的表现仍有待提高。
➡️ 研究动机：为了填补这一研究空白，研究团队提出了Meerkat，这是一个具备细粒度时空理解能力的音频-视觉大语言模型。Meerkat旨在通过引入新的模态对齐模块和跨模态注意力一致性模块，增强模型在处理复杂音频-视觉任务时的表现，从而推动多模态理解的边界。
➡️ 方法简介：Meerkat通过两个关键模块实现其强大的细粒度理解能力：模态对齐模块（Modality Alignment Module, AVOpT）和跨模态注意力一致性模块（Cross-Modal Attention Consistency Enforcement Module, AVACE）。AVOpT模块基于最优传输理论，学习图像和音频补丁之间的弱监督对齐；AVACE模块则通过限制跨模态注意力图在目标对象的边界内，实现区域级别的强监督对齐。此外，研究团队还构建了一个包含300万指令调优样本的大型数据集AVFIT，以及一个统一五个音频-视觉任务的基准测试套件MeerkatBench。
➡️ 实验设计：研究团队在五个音频-视觉任务上进行了广泛的实验，包括音频引导的图像定位、图像引导的音频时间定位、音频-视觉事实核查、音频-视觉问答和音频-视觉描述。实验结果表明，Meerkat在所有任务上均取得了当前最佳的性能，相对改进率最高达到37.12%。

A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding

➡️ 论文标题：A Bounding Box is Worth One Token: Interleaving Layout and Text in a Large Language Model for Document Understanding
➡️ 论文作者：Jinghui Lu, Haiyang Yu, Yanjie Wang, Yongjie Ye, Jingqun Tang, Ziwei Yang, Binghong Wu, Qi Liu, Hao Feng, Han Wang, Hao Liu, Can Huang
➡️ 研究机构: ByteDance Inc.、Fudan University
➡️ 问题背景：当前的文档理解方法在结合光学字符识别（OCR）提取的文本和空间布局时，存在生成过长的文本序列或未能充分利用大型语言模型（LLMs）的自回归特性等问题。这些问题限制了模型在文档理解任务中的性能，尤其是在处理视觉丰富的文档时。
➡️ 研究动机：为了克服现有方法的局限性，研究团队提出了一种新的方法——LayTextLLM，该方法通过将每个边界框映射到单个嵌入，并将其与文本交织，从而有效地解决了序列长度问题，同时充分利用了LLMs的自回归特性。研究旨在提高文档理解任务中的关键信息提取（KIE）和视觉问答（VQA）性能。
➡️ 方法简介：LayTextLLM引入了空间布局投影器（SLP），将OCR提取的四维坐标转换为单个嵌入，然后与文本交织。此外，研究团队提出了两个定制的训练任务：布局感知的下一个词预测（Layout-aware Next Token Prediction）和打乱的OCR监督微调（Shuffled-OCR Supervised Fine-tuning），以增强模型的布局和文本对齐能力及泛化能力。
➡️ 实验设计：实验在多个公开数据集上进行，包括文档密集描述（DDD）、DocVQA、InfoVQA、ChartQA、VisualMRC、SROIE、CORD和FUNSD等。实验设计了不同的训练集组合，以评估LayTextLLM在不同任务和设置下的性能。结果表明，LayTextLLM在KIE任务上比现有方法提高了27.2%，在VQA任务上提高了12.0%。此外，LayTextLLM在零样本和监督微调场景下均表现出色，特别是在处理高分辨率输入时，能够保留更多文本细节，同时减少输入序列长度。