多模态大语言模型arxiv论文略读（112）

在这里插入图片描述

Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models

➡️ 论文标题：Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models
➡️ 论文作者：Jean Park, Kuk Jin Jang, Basam Alasaly, Sriharsha Mopidevi, Andrew Zolensky, Eric Eaton, Insup Lee, Kevin Johnson
➡️ 研究机构: University of Pennsylvania (Department of Computer and Information Science, Perelman School of Medicine)
➡️ 问题背景：当前的视频问答（VidQA）基准和数据集往往偏向单一模态，尽管其目标是要求高级的推理技能，整合多种模态来回答问题。这种模态偏见限制了对模型多模态整合能力的评估。
➡️ 研究动机：为了识别和量化这种模态偏见，研究团队提出了一种新的模态重要性评分（MIS），用于评估每个模态在回答问题中的贡献。通过这种方法，研究团队旨在揭示现有数据集中存在的单模态偏见，并强调需要更多平衡和具有挑战性的多模态问题。
➡️ 方法简介：研究团队定义了模态重要性评分（MIS），通过评估在不同模态组合下模型的性能变化来量化每个模态的贡献。MIS通过计算包含特定模态的组合与不包含该模态的组合之间的性能差异来定义。此外，研究团队利用多模态大语言模型（MLLMs）来估计MIS，以评估模态在多模态问答任务中的重要性。
➡️ 实验设计：研究团队在三个VidQA数据集（TVQA、LifeQA、AVQA）上进行了实验，评估了四个多模态VidQA模型在不同模态组合下的表现。实验设计包括对模态特征进行排列组合，以评估模型在不同条件下的模态整合能力。此外，研究团队还进行了人类研究，以验证MLLMs估计的MIS与人类对模态重要性的感知之间的对齐程度。

Semantic Alignment for Multimodal Large Language Models

➡️ 论文标题：Semantic Alignment for Multimodal Large Language Models
➡️ 论文作者：Tao Wu, Mengze Li, Jingyuan Chen, Wei Ji, Wang Lin, Jinyang Gao, Kun Kuang, Zhou Zhao, Fei Wu
➡️ 研究机构: 浙江大学、新加坡国立大学、阿里巴巴集团
➡️ 问题背景：多模态大语言模型（MLLMs）在处理多图像跨模态指令方面展现出巨大潜力，尤其是在处理相似图像的任务中，如GPT-4V(ision)。然而，当面对内容、上下文或风格显著不同的图像时，MLLMs的性能会显著下降，尤其是在教育图像中，模型难以建立图像间的有意义的语义连接。
➡️ 研究动机：现有的MLLMs在处理多图像时，通常采用两步流程：首先独立提取每个输入图像的视觉标记，然后在大型语言模型（LLM）的文本特征空间中对齐这些视觉标记。这种独立提取可能导致不同图像间的关键“链接”信息丢失，尤其是在图像背景差异较大的情况下。为了解决这一问题，研究团队提出了语义对齐方法（SAM），通过在视觉标记提取过程中引入双向语义引导机制，增强不同图像间的语义对齐。
➡️ 方法简介：SAM模型通过在图像感知阶段引入双向语义引导机制，解决了多图像输入中的语义错位问题。该机制包括两个交互过程：辅助视觉标记提取（Part A）和上下文语义生成（Part B）。在Part A中，Q-former层基于自然语言查询处理当前感知图像，提取初始视觉标记；在Part B中，W-former模块利用初始视觉标记从上下文图像中提取同步的上下文语义，这些语义再反馈给Q-former层，以指导视觉标记的更新。
➡️ 实验设计：研究团队构建了一个名为MmLINK的大规模多模态数据集，包含69,000个样本，旨在增强模型的跨模态多图像语义对齐和关联挖掘能力。实验在多图像描述任务和故事叙述任务上进行了广泛的测试，结果表明，SAM模型在这些任务上的表现显著优于现有方法，分别在组描述任务和故事叙述任务上提高了37%和22%的CIDEr分数。

IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities

➡️ 论文标题：IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities
➡️ 论文作者：Bin Wang, Chunyu Xie, Dawei Leng, Yuhui Yin
➡️ 研究机构: 360 AI Research
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在多种任务中展现出巨大潜力，如将图像中的文本转录、基于图像生成故事和诗歌、将网页截图转换为代码等。然而，现有的MLLMs在训练过程中通常会解冻语言模型，以促进深度视觉理解，这导致了模型在自然语言处理（NLP）任务上的性能下降。
➡️ 研究动机：为了防止MLLMs在训练过程中语言能力的下降，研究团队提出了一种新的训练范式——内适配器架构（Inner-Adaptor Architecture, IAA）。该架构能够在不牺牲原有语言模型能力的情况下，增强模型的多模态能力。
➡️ 方法简介：IAA架构通过在大型语言模型的不同深度插入多个多模态适配器，实现与文本导向的Transformer层的直接交互，从而使冻结的语言模型获得多模态能力。与以往需要大规模对齐数据的方法不同，IAA架构在小规模数据集上也能表现出色。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括MME、MMBench、MMMU和RefCOCO等，评估了模型在一般多模态能力和视觉定位能力方面的表现。实验结果表明，IAA架构在各种视觉-语言基准测试中显著优于现有的最先进方法，且在NLP任务上没有性能下降。

ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models

➡️ 论文标题：ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models
➡️ 论文作者：Yeji Park, Deokyeong Lee, Junsuk Choe, Buru Chang
➡️ 研究机构: Sogang University
➡️ 问题背景：多模态大语言模型（MLLMs）在生成响应时，经常出现与给定图像不一致的幻觉现象，这严重影响了模型的可靠性。例如，在医疗应用中，幻觉可能导致错误诊断；在基于MLLMs的自主系统中，可能导致错误的解释。这一问题对MLLMs在关键领域的应用构成了重大障碍。
➡️ 研究动机：为了解决MLLMs中的幻觉问题，研究团队提出了一种新的训练自由的对比解码方法——ConVis。ConVis通过利用文本到图像（T2I）生成模型来重建图像，从而捕捉视觉对比信号，减少幻觉生成。该方法完全在解码过程中操作，无需额外的数据或模型更新。
➡️ 方法简介：ConVis首先使用MLLM生成图像的描述，然后利用T2I模型根据生成的描述重建图像。通过比较原始图像和重建图像的概率分布，ConVis能够捕捉到视觉对比信号，从而在解码过程中减少幻觉生成。具体来说，如果生成的描述中包含幻觉（例如“书”），T2I模型将在重建的图像中忠实可视化这些幻觉，从而在对比分布中放大这些幻觉对应的词元的logits。
➡️ 实验设计：研究团队在五个基准数据集上进行了实验，包括CHAIR、HallusionBench、POPE、MME和LLaVA-Bench。实验评估了ConVis在不同MLLMs（如LLaVA-1.5、MiniGPT-4和mPLUG-Owl2）上的表现。结果表明，ConVis在减少幻觉的同时，保持了整体响应生成性能。

Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos

➡️ 论文标题：Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos
➡️ 论文作者：Jiajun Fei, Dian Li, Zhidong Deng, Zekun Wang, Gang Liu, Hui Wang
➡️ 研究机构: Tsinghua University、Tencent QQ
➡️ 问题背景：多模态大语言模型（MLLMs）在各种需要跨领域知识的下游任务中展示了巨大的潜力。特别是能够处理视频的Video-MLLMs，在视频-语言理解领域受到了广泛关注。然而，视频，尤其是长视频，包含的视觉标记比图像多得多，这使得LLMs难以处理。现有的方法要么降低视觉特征的采样率，要么扩展LLM的上下文大小，但这些方法可能会导致高分辨率信息的丢失或推理速度的减慢。
➡️ 研究动机：为了克服上述限制，研究团队提出了一种新的Video-MLLM——Video-CCAM，通过在视觉编码器和大语言模型（LLM）之间的中间投影器中应用交叉注意力层，并引入因果交叉注意力掩码（CCAMs），以提高模型处理视频时的时序一致性和效率。研究旨在为视频-语言理解提供一个高效且强大的基线模型。
➡️ 方法简介：Video-CCAM模型由三个主要部分组成：处理图像和视频的视觉编码器、处理视觉和文本嵌入的LLM，以及连接两者的CCAM投影器。CCAM投影器通过固定数量的查询来处理不同帧数的视频，并通过因果交叉注意力掩码确保查询的时序顺序，从而增强模型的视频理解能力。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括MVBench、VideoVista、MLVU、VideoChatGPT-QA和Video-MME。实验评估了Video-CCAM在不同视频长度和任务类型（如理解、推理、生成等）上的表现。实验结果表明，Video-CCAM在多个基准测试中取得了优异的成绩，尤其是在处理长视频时表现出色。