多模态大语言模型arxiv论文略读（七十五）

在这里插入图片描述

PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM

➡️ 论文标题：PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM
➡️ 论文作者：Tao Yang, Yingmin Luo, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
➡️ 研究机构: Hong Kong Polytechnic University, Tencent PCG ARC Lab, Tencent AI Lab
➡️ 问题背景：在图形设计中，布局生成是实现自动化设计的关键，它要求以视觉上令人愉悦且遵循约束的方式安排各种多模态设计元素的位置和大小。现有的方法要么在大规模应用中效率低下，要么缺乏处理不同设计需求的灵活性。研究团队提出了一种统一的框架，利用多模态大语言模型（MLLM）来应对多样化的设计任务。
➡️ 研究动机：现有的布局生成方法要么依赖于高度定制的网络架构，缺乏通用性，要么在处理复杂多模态条件时表现不佳。为了解决这些问题，研究团队开发了一个名为PosterLLaVa的统一框架，该框架能够通过简单的输入指令修改来适应各种设计场景，而无需更改模型架构。此外，该框架能够无缝集成用户通过自然语言表达的设计需求，增强模型对特定设计需求的响应能力。
➡️ 方法简介：研究团队提出了一种系统的方法，通过将布局信息表示为结构化的自然语言（JSON格式），并利用预训练的视觉头部将输入图像转换为适应文本标记空间的表示，然后对大语言模型（LLM）进行微调，以解释和生成布局数据。该方法能够处理广泛的布局生成任务，包括用户定义的自然语言规范。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括内容感知布局生成任务。实验设计了不同的因素（如元素数量、分辨率和设计领域），以及不同类型的用户约束（如商业海报和广告横幅），以全面评估模型在不同条件下的表现。此外，研究团队还提出了两个新的数据集（QB-Poster和UC-Poster），用于处理更复杂的实际应用任务，进一步验证了模型的有效性和适应性。

Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment

➡️ 论文标题：Enhancing Multimodal Large Language Models with Multi-instance Visual Prompt Generator for Visual Representation Enrichment
➡️ 论文作者：Wenliang Zhong, Wenyi Wu, Qi Li, Rob Barton, Boxin Du, Shioulin Sam, Karim Bouyarmane, Ismail Tutar, Junzhou Huang
➡️ 研究机构: The University of Texas at Arlington, Amazon
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）通过融合视觉表示与大语言模型（LLMs），在各种视觉语言任务中取得了最先进的性能。然而，现有的开源MLLMs主要是在（图像，文本）对上进行预训练，这与现实场景中样本通常由丰富的视觉表示所代表的情况不符。例如，电子商务产品通常会展示多个角度的图片和详细的文字描述，而医学图像分析中的全切片图像（WSI）则需要分割成多个图像块进行处理。因此，将MLLMs应用于具有更丰富视觉输入的多模态任务具有重要的实际意义。
➡️ 研究动机：尽管MLLMs在多种多模态任务中取得了显著成果，但大多数现有的开源MLLMs主要是在（图像，文本）对上进行预训练，这与现实场景中的数据形式不完全匹配。为了更好地处理现实场景中的多模态数据，研究团队提出了一种新的组件——多实例视觉提示生成器（Multi-instance Visual Prompt Generator, MIVPG），以增强视觉表示的丰富性和相关性。
➡️ 方法简介：研究团队提出了一种新的方法——MIVPG，该方法通过考虑图像或图像块之间的相关性，将丰富的视觉表示融入到大语言模型中。MIVPG借鉴了多实例学习（MIL）的思想，将图像或图像块视为一个“包”中的多个“实例”，并通过相关自注意力（CSA）模块来捕捉实例之间的关系。此外，研究团队还证明了常用的QFormer是一种简化的MIL模块，并通过实验展示了MIVPG在多个数据集上的优越性能。
➡️ 实验设计：研究团队在三个公开数据集上进行了实验，包括常见的自然图像、千兆像素大小的病理图像和包含多个图像的电子商务产品。实验设计了不同的场景，以评估MIVPG在不同条件下的表现。实验结果表明，MIVPG在所有数据集上都显著优于QFormer，特别是在数据集较小的情况下，MIVPG的性能提升更为明显。

Evaluation of data inconsistency for multi-modal sentiment analysis

➡️ 论文标题：Evaluation of data inconsistency for multi-modal sentiment analysis
➡️ 论文作者：Yufei Wang, Mengyue Wu
➡️ 研究机构: 上海交通大学 (Shanghai Jiao Tong University)
➡️ 问题背景：多模态情感分析（Multi-Modal Sentiment Analysis, MSA）在人工智能领域，特别是在人机交互中，已成为研究热点。MSA旨在解析个体在不同模态（如文本、音频和视频）中表达的情感。然而，由于人类情感表达的微妙性和复杂性，不同模态之间的情感表达可能存在不一致，这给情感预测带来了挑战。
➡️ 研究动机：尽管多模态模型在情感分析方面取得了显著进展，但多模态情感分析仍面临来自单模态情感预测的矛盾。这些矛盾源于每个模态中可能存在语义冲突的信息。人类情感在不同模态中的表达方式多样，有时这些模态可能传达不一致的含义，这使得不同模态的整合和交互变得复杂。目前缺乏处理这种不一致性的基准数据集和对多模态情感识别模型处理不一致情况的适当研究。本研究填补了这一空白，主要贡献在于提出了“多模态冲突数据情感分析”的明确设置，并引入了标准化的基准测试集DiffEmo，用于评估不同模型在处理模态冲突方面的性能。
➡️ 方法简介：研究团队构建了DiffEmo数据集，该数据集从CH-SIMS v2.0数据集中提取了661个冲突数据样本。DiffEmo数据集包括三个不同的测试设置：混合集（Mixed Set）、冲突集（Conflicting Set）和对齐集（Aligned Set），旨在验证处理冲突数据确实是一个更具挑战性的设置。研究团队还对多种模型进行了全面评估，包括多模态大型语言模型（MLLMs），以探讨不同融合方法的有效性。
➡️ 实验设计：实验在DiffEmo数据集的三个不同设置上进行，评估了多种模型的性能，包括传统的多模态情感分析模型和多模态大型语言模型。实验设计了不同的融合方法（如早期融合、晚期融合、混合融合等），以及多任务学习的影响，以全面评估模型在处理冲突数据时的性能。此外，研究团队还进行了消融研究，旨在区分模态冲突数据和模态一致数据。

AD-H: Autonomous Driving with Hierarchical Agents

➡️ 论文标题：AD-H: Autonomous Driving with Hierarchical Agents
➡️ 论文作者：Zaibin Zhang, Shiyu Tang, Yuanhang Zhang, Talas Fu, Yifan Wang, Yang Liu, Dong Wang, Jing Shao, Lijun Wang, Huchuan Lu
➡️ 研究机构: Dalian University of Technology, Shanghai Artificial Intelligence Laboratory
➡️ 问题背景：当前的自动驾驶系统在大规模和动态环境中运行时，通常将高层次指令直接转换为低层次的车辆控制信号。这种做法偏离了多模态大语言模型（MLLMs）的自然语言生成范式，限制了模型的泛化能力，尤其是在未见过的场景和指令中。
➡️ 研究动机：为了充分利用预训练的MLLMs在高层次感知、推理和规划中的潜在能力，研究团队提出了一种分层多代理驾驶系统（AD-H），通过引入中间层次的命令来桥接高层次指令和低层次控制信号之间的差距。这种方法不仅提高了模型的控制精度，还增强了其泛化能力。
➡️ 方法简介：AD-H系统由两个代理组成：一个基于MLLM的规划器和一个轻量级的控制器。规划器负责高层次的决策和规划，生成中间层次的驾驶命令；控制器则将这些命令转换为具体的控制信号。研究团队还构建了一个新的自动驾驶数据集，包含1,753,000帧的多层次指令和驾驶命令注释，以支持分层策略的学习。
➡️ 实验设计：研究团队在CARLA模拟器上进行了广泛的闭环评估，包括标准的LangAuto基准测试以及两个额外的基准测试：LangAuto-Long-Horizon和LangAuto-Novel-Environment。实验评估了AD-H在不同环境和指令下的表现，特别是在长时规划和新环境中的泛化能力。结果表明，AD-H在驾驶性能和泛化能力方面显著优于现有方法。

Wings: Learning Multimodal LLMs without Text-only Forgetting

➡️ 论文标题：Wings: Learning Multimodal LLMs without Text-only Forgetting
➡️ 论文作者：Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
➡️ 研究机构: 南京大学、阿里巴巴集团
➡️ 问题背景：多模态大型语言模型（Multimodal Large Language Models, MLLMs）在视觉相关任务中表现出色，但它们在训练过程中会遭遇“文本遗忘”现象，即模型在处理纯文本指令时的表现显著下降。这种现象限制了MLLMs在实际应用中的灵活性和效率。
➡️ 研究动机：为了克服MLLMs的“文本遗忘”问题，研究团队提出了WINGS模型。WINGS通过引入额外的视觉和文本学习模块，旨在平衡模型对视觉和文本信息的注意力分配，从而在保持多模态理解能力的同时，提升纯文本任务的性能。
➡️ 方法简介：WINGS模型通过构建视觉和文本学习模块，并引入基于注意力权重的路由器来动态调整这些模块的输出，以补偿主分支注意力的偏移。这些模块像“翅膀”一样平行于主注意力模块，通过低秩残差注意力（Low-Rank Residual Attention, LoRRA）机制高效地处理视觉和文本信息。
➡️ 实验设计：研究团队在多个基准数据集上进行了实验，包括纯文本问答、视觉问答以及新构建的交错图像-文本（Interleaved Image-Text, IIT）基准。实验结果表明，WINGS在纯文本和多模态任务中均表现出色，特别是在IIT基准上，WINGS在不同视觉相关度的分区中均取得了领先性能。