多模态大语言模型arxiv论文略读（七十八）

在这里插入图片描述

AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction

➡️ 论文标题：AID: Adapting Image2Video Diffusion Models for Instruction-guided Video Prediction
➡️ 论文作者：Zhen Xing, Qi Dai, Zejia Weng, Zuxuan Wu, Yu-Gang Jiang
➡️ 研究机构: Fudan University、Microsoft Research Asia
➡️ 问题背景：文本引导的视频预测（TVP）任务涉及根据初始帧和指令预测未来的视频帧，具有广泛的应用，如虚拟现实、机器人技术和内容创作。然而，现有的TVP方法在帧一致性和时间稳定性方面存在挑战，主要原因是视频数据集的规模有限。研究团队观察到，预训练的图像到视频扩散模型（Image2Video diffusion models）具有良好的视频动态先验，但缺乏文本控制。因此，将这些模型转移到特定领域应用，并注入指令控制以生成可控视频，是一个有意义且具有挑战性的任务。
➡️ 研究动机：现有的TVP方法虽然在创意生成方面表现出色，但由于视频数据集规模有限，导致生成的视频在一致性和稳定性方面表现不佳。研究团队旨在通过将预训练的图像到视频扩散模型转移到特定领域应用，并注入文本控制，来提高视频生成的质量和可控性。
➡️ 方法简介：研究团队提出了一种多模态大语言模型（MLLM）来预测未来视频的状态，并设计了双查询变压器（DQFormer）架构，将文本和视觉条件整合为多条件（MCondition），以指导视频预测。此外，还开发了长期和短期时间适配器以及空间适配器，以快速将通用视频扩散模型转移到特定场景，同时保持较低的训练成本。
➡️ 实验设计：研究团队在四个主流TVP数据集上进行了实验，包括Something Something V2、Epic Kitchen-100、Bridge Data和UCF-101。实验设计了不同的条件（如初始帧、文本指令）和适配器（如时间适配器、空间适配器），以评估模型在不同条件下的表现。实验结果表明，该方法在多个数据集上的表现显著优于现有技术，特别是在Fréchet Video Distance (FVD)指标上，相比之前的最先进方法提高了超过50%。

Eyeballing Combinatorial Problems: A Case Study of Using Multimodal Large Language Models to Solve Traveling Salesman Problems

➡️ 论文标题：Eyeballing Combinatorial Problems: A Case Study of Using Multimodal Large Language Models to Solve Traveling Salesman Problems
➡️ 论文作者：Mohammed Elhenawy, Ahmed Abdelhay, Taqwa I. Alhadidi, Huthaifa I Ashqar, Shadi Jaradat, Ahmed Jaber, Sebastien Glaser, Andry Rakotonirainy
➡️ 研究机构: Queensland University of Technology, Minia University, Al-Ahliyya Amman University, Arab American University, Columbia University, Budapest University of Technology and Economics
➡️ 问题背景：多模态大型语言模型（Multimodal Large Language Models, MLLMs）在处理多种模态数据（如文本、图像和音频）方面表现出色。这些模型利用了广泛的知识，能够在几乎没有特定训练样本的情况下解决复杂问题，这在少样本和零样本学习场景中得到了验证。本文探讨了MLLMs通过分析二维平面上点分布的图像来“直观”解决旅行商问题（TSP）的能力。
➡️ 研究动机：尽管大型语言模型（LLMs）在文本任务中表现出色，但在理解和处理其他类型的数据时往往遇到困难。MLLMs通过结合多种模态数据，克服了纯文本模型的局限性，为处理多样化数据类型提供了可能。本研究旨在探索MLLMs在解决组合优化问题，特别是TSP中的视觉推理能力，以及不同上下文学习技术对其性能的影响。
➡️ 方法简介：研究团队设计了一系列实验，包括零样本、少样本、自集成和自精炼零样本评估，以测试MLLMs在解决TSP时的表现。实验中，模型被要求仅通过视觉分析来生成TSP的解决方案，并通过自集成和自精炼策略来提高解决方案的质量。
➡️ 实验设计：实验使用了包含不同数量点的旅程数据集，每个旅程由一系列独特的二维点组成。实验设计了不同规模的问题（5、10、15、20个点），并使用了零样本、少样本、自集成和自精炼方法来评估模型的性能。此外，研究还分析了模型在处理不同问题规模时的幻觉（如错误的节点ID和不完整的路线）情况，以及自集成和自精炼方法对减少这些幻觉的影响。

MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models

➡️ 论文标题：MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models
➡️ 论文作者：Yichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong, Jun Zhu
➡️ 研究机构: 清华大学、北京航空航天大学、上海交通大学、RealAI、广州黄埔区琶洲实验室
➡️ 问题背景：尽管多模态大语言模型（MLLMs）在多种任务中表现出色，但它们在可信度方面仍面临重大挑战，包括事实性错误、有害输出、隐私泄露等问题。当前对MLLMs可信度的评估研究有限，缺乏全面的评估框架，无法提供深入的见解以指导未来的改进。
➡️ 研究动机：为了促进基础模型的可信度，开发全面和标准化的评估基准是必不可少的。虽然已有许多研究评估了大语言模型（LLMs）的可信度，但针对MLLMs的评估框架仍然缺乏。此外，多模态的特性引入了新的风险，如对对抗性图像攻击的敏感性、图像中的有毒内容以及通过视觉上下文进行的越狱等。因此，研究团队建立了MultiTrust，旨在全面评估MLLMs在五个主要方面的可信度：事实性、安全性、鲁棒性、公平性和隐私性。
➡️ 方法简介：研究团队提出了一个更深入的评估策略，通过考虑多模态风险和视觉输入对基础LLMs性能的跨模态影响，来评估MLLMs的可信度。为此，他们设计了32个不同的任务，包括对现有多模态任务的改进、将文本任务扩展到多模态场景以及新的风险评估方法。研究团队还构建了丰富的数据集，其中大部分数据集是基于现有数据集改进或通过数据合成（如Stable Diffusion、GPT-4V）和手动收集新提出的。
➡️ 实验设计：研究团队在21个现代MLLMs（4个专有模型和17个开源模型）上进行了大规模实验，以确保模型的广泛覆盖和架构的多样性。实验设计涵盖了多种任务类型，包括多模态任务、跨模态任务、判别任务和生成任务，旨在全面评估模型在不同场景下的基本性能和实际意义。实验结果揭示了MLLMs在可信度方面的一些先前未被探索的问题和风险，强调了多模态特性带来的复杂性，并指出了提高模型可靠性的必要性。

Needle In A Multimodal Haystack

➡️ 论文标题：Needle In A Multimodal Haystack
➡️ 论文作者：Weiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang
➡️ 研究机构: Fudan University, OpenGVLab, Shanghai AI Laboratory, Tsinghua University, The Chinese University of Hong Kong, Nanjing University, SenseTime Research, The University of Hong Kong
➡️ 问题背景：随着多模态大语言模型（Multimodal Large Language Models, MLLMs）的快速发展，其评估方法也日益全面。然而，理解长多模态内容作为实际应用的基础能力，仍然未得到充分探索。当前的多模态模型在处理长上下文多模态文档时面临挑战，主要受限于上下文窗口大小的限制，以及缺乏适当的评估基准。
➡️ 研究动机：现有的多模态模型在处理长上下文多模态文档时表现不佳，主要原因是上下文窗口大小的限制。此外，缺乏适当的评估基准也是限制多模态模型在长上下文理解方面发展的关键因素。为了填补这一空白，研究团队构建了第一个专门用于评估多模态模型长文档理解能力的基准——MM-NIAH（Needle In A Multimodal Haystack）。
➡️ 方法简介：研究团队通过将OBELICS中的交错图像-文本序列连接起来，构建了包含1k到72k图像和文本标记的长上下文文档，作为“多模态干草堆”。然后，研究团队在这些文档中插入了不同类型的关键信息（“针”），包括文本针和图像针。MM-NIAH包含三种任务类型：检索、计数和推理。每种任务都要求模型根据文档中的关键信息回答问题。
➡️ 实验设计：研究团队在MM-NIAH基准上评估了9个先进的多模态大语言模型，包括开源和闭源模型。实验设计了不同上下文长度和针深度的分布，以全面评估模型在不同条件下的表现。实验结果表明，现有模型在处理图像针时的表现显著低于处理文本针时的表现，且大多数模型在处理长上下文多模态文档时表现不佳。

Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions

➡️ 论文标题：Image Textualization: An Automatic Framework for Creating Accurate and Detailed Image Descriptions
➡️ 论文作者：Renjie Pi, Jianshu Zhang, Jipeng Zhang, Rui Pan, Zhekai Chen, Tong Zhang
➡️ 研究机构: The Hong Kong University of Science and Technology (HKUST)、Wuhan University、Zhejiang University、University of Illinois Urbana-Champaign
➡️ 问题背景：当前的图像描述数据集主要来源于网络抓取的图像-文本对和人工标注的数据集。网络抓取的数据集虽然规模庞大，但质量低下且噪声多；而人工标注的数据集虽然质量较高，但缺乏细节且成本高昂。这些限制突显了需要更高效和可扩展的方法来生成准确和详细的图像描述。
➡️ 研究动机：高质量的图像描述对于提高多模态大语言模型（MLLMs）在图像理解、文本到图像生成和文本-图像检索等任务中的性能至关重要。然而，现有的图像描述数据集往往缺乏细节且容易产生幻觉。因此，研究团队提出了一种自动框架——图像文本化（Image Textualization, IT），旨在利用现有的多模态大语言模型和多个视觉专家模型，以协作方式生成高质量的图像描述。
➡️ 方法简介：研究团队提出的图像文本化框架（IT）包括三个阶段：1) 整体文本化（Holistic Textualization）：利用MLLM生成参考描述，提供基本结构；2) 视觉细节文本化（Visual Detail Textualization）：利用视觉专家模型提取细粒度的物体信息，并识别参考描述中的幻觉内容；3) 文本化重述（Textualized Recaptioning）：利用大型语言模型（LLMs）的高级理解和推理能力，基于前两个阶段的文本化信息生成准确且详细的描述。
➡️ 实验设计：研究团队构建了三个基准测试集（DID-Bench、D2I-Bench和LIN-Bench），从多个方面评估生成的图像描述的质量。实验验证了IT框架生成的描述在多个基准测试集上的表现，并通过微调MLLMs验证了生成数据对模型性能的提升。此外，研究团队还进行了语言评估和数据集的统计分析。