多模态大语言模型arxiv论文略读（108）

在这里插入图片描述

CROME: Cross-Modal Adapters for Efficient Multimodal LLM

➡️ 论文标题：CROME: Cross-Modal Adapters for Efficient Multimodal LLM
➡️ 论文作者：Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister
➡️ 研究机构: Google Cloud AI Research
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在图像-语言任务中表现出色，但其广泛应用面临成本效益的训练和适应挑战。现有的方法通常需要昂贵的语言模型再训练和有限的适应性。此外，当前对零样本性能的改进不足以指导特定任务的调优。
➡️ 研究动机：为了克服这些挑战，研究团队提出了一种新的视觉-语言指令调优框架CROME，该框架通过引入轻量级的门控跨模态适配器（CROME-Adapter），在保持参数效率的同时，有效结合视觉和文本表示，从而促进跨模态理解。
➡️ 方法简介：CROME框架包括一个预训练的视觉编码器、查询Transformer（Q-Former）和一个新颖的门控跨模态适配器。适配器在输入到冻结的语言模型之前，对视觉和文本表示进行融合，从而避免了昂贵的语言模型再训练。适配器的设计使得CROME在特定任务的微调过程中，仅需训练适配器部分，从而实现高效、灵活的调优。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括预训练阶段的图像-标题对数据集和指令调优阶段的图像-指令对数据集。实验评估了CROME在零样本和监督微调场景下的性能，并与现有的开源基线模型进行了比较。实验结果表明，CROME在6/8个基准测试中超越了现有的开源模型，特别是在零样本性能和特定任务微调方面表现出色。

MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark

➡️ 论文标题：MathScape: Evaluating MLLMs in multimodal Math Scenarios through a Hierarchical Benchmark
➡️ 论文作者：Minxuan Zhou, Hao Liang, Tianpeng Li, Zhiyu Wu, Mingan Lin, Linzhuang Sun, Yaqi Zhou, Yan Zhang, Xiaoqin Huang, Yicong Chen, Yujing Qiao, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou
➡️ 研究机构: 北京大学、百川科技、南开大学、中国科学院大学
➡️ 问题背景：随着多模态大语言模型（Multimodal Large Language Models, MLLMs）的发展，评估这些模型在数学问题中的表现成为了一个重要的研究领域。多模态视觉-文本数学推理是评估MLLMs理解能力和复杂多步骤定量推理能力的关键指标。然而，现有的多模态数学基准测试未能充分整合视觉和文本信息。
➡️ 研究动机：为了填补这一空白，研究团队提出了MathScape，这是一个新的基准测试，强调理解和应用结合的视觉和文本信息。MathScape旨在评估基于照片的数学问题场景，通过分类层次方法评估MLLMs的理论理解和应用能力。
➡️ 方法简介：研究团队设计了一个多维度的评估方法，对11个先进的MLLMs进行了评估，揭示了即使是最先进的模型也面临挑战。通过分析评估结果，研究团队识别了MLLMs的局限性，为提升模型性能提供了有价值的见解。
➡️ 实验设计：实验在三个公开数据集上进行，包括不同类型的数学问题（如选择题、填空题和证明题），不同数学知识领域（如代数、几何、概率和统计），以及不同教育阶段（如小学、初中和高中）。实验设计了两个步骤的评估方法，首先使用大语言模型（LLMs）提取每个子问题的答案，然后使用LLMs作为评估者评估每个解决方案的正确性。

Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities

➡️ 论文标题：Model Merging in LLMs, MLLMs, and Beyond: Methods, Theories, Applications and Opportunities
➡️ 论文作者：Enneng Yang, Li Shen, Guibing Guo, Xingwei Wang, Xiaochun Cao, Jie Zhang, Dacheng Tao
➡️ 研究机构: 东北大学（中国）、中山大学（中国）、南洋理工大学（新加坡）
➡️ 问题背景：模型合并（Model Merging）是一种高效的机器学习技术，无需收集原始训练数据，也不需要昂贵的计算资源。随着模型合并技术在各个领域的广泛应用，理解现有的模型合并技术变得尤为重要。然而，目前文献中缺乏对这些技术的系统和全面的综述。
➡️ 研究动机：尽管模型合并是一个相对较新的领域，但其发展迅速，并已在多个领域找到应用。为了填补现有文献中的空白，本综述旨在全面概述模型合并的方法、理论、应用及未来研究方向，提供一个全面的分类框架，以增强对模型合并技术的理解。
➡️ 方法简介：研究团队提出了一种新的分类方法，将现有的模型合并技术分为两个阶段：预合并（Pre-Merging）和合并中（During-Merging）。预合并方法旨在为模型合并创造更好的条件，包括线性化微调、架构转换和权重对齐。合并中方法则专注于设计复杂的合并技术，解决任务冲突和干扰问题，包括基本合并方法、加权合并方法、子空间合并方法、基于路由的合并方法和基于后校准的合并方法。
➡️ 实验设计：研究详细讨论了模型合并技术在基础模型（如大型语言模型、多模态大型语言模型和视觉生成模型）以及超过10个机器学习子领域（如持续学习、多任务学习、少样本学习等）中的应用。实验设计涵盖了模型合并技术在不同场景下的应用，展示了其在解决现有挑战方面的潜力。

$\textit{MMJ-Bench}$ : A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models

➡️ 论文标题： $\textit{MMJ-Bench}$ : A Comprehensive Study on Jailbreak Attacks and Defenses for Multimodal Large Language Models
➡️ 论文作者：Fenghua Weng, Yue Xu, Chengyan Fu, Wenjie Wang
➡️ 研究机构: ShanghaiTech University, China
➡️ 问题背景：随着深度学习的发展，大型语言模型（LLMs）及其多模态变体（Multimodal Large Language Models, MLLMs）在许多实际任务中展现了卓越的性能。然而，MLLMs面临着显著的安全挑战，如越狱攻击（Jailbreak Attacks），攻击者试图绕过模型的安全对齐，以引出有害响应。这种威胁不仅源于LLMs的固有漏洞，还源于MLLMs处理的多种信息渠道。尽管已经提出了各种攻击和防御方法，但在统一和全面评估这些方法方面存在显著差距，因为每种方法都在不同的数据集和评估指标上进行评估，难以比较其有效性。
➡️ 研究动机：为了填补这一空白，研究团队提出了MMJ-Bench，一个用于评估MLLMs越狱攻击和防御技术的统一框架。通过广泛的实验，研究团队评估了各种攻击方法对最先进的MLLMs的有效性，并评估了防御机制对模型在正常任务中的效用和响应时间的影响。
➡️ 方法简介：研究团队设计了一个四步工作流程：数据收集、越狱案例生成、响应生成和评估。数据收集阶段包括有害查询的生成和正常任务数据集的选择。越狱案例生成阶段选择了六种最先进的攻击方法和四种防御方法。响应生成阶段使用了六个来自四个流行模型家族的MLLMs及其变体。评估阶段使用了GPT-4和HarmBench分类器来评估攻击的有效性和防御技术的效果。
➡️ 实验设计：实验在六个MLLMs上进行了，包括LLaVa、MiniGPT4、InstructBlip和Qwen-VL。评估了六种攻击方法（三种生成型攻击和三种优化型攻击）和四种防御方法（一种主动防御和三种反应防御）。评估指标包括攻击成功率（ASR）、检测成功率（DSR）和MM-Vet评分，以全面评估模型在不同条件下的表现。

A Survey on Benchmarks of Multimodal Large Language Models

➡️ 论文标题：A Survey on Benchmarks of Multimodal Large Language Models
➡️ 论文作者：Jian Li, Weiheng Lu, Hao Fei, Meng Luo, Ming Dai, Min Xia, Yizhang Jin, Zhenye Gan, Ding Qi, Chaoyou Fu, Ying Tai, Wankou Yang, Yabiao Wang, Chengjie Wang
➡️ 研究机构: Tencent、PKU、NUS、SEU、NJU
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）因其在视觉问答、视觉感知、理解和推理等应用中的卓越表现，近年来在学术界和工业界受到了广泛关注。然而，尽管MLLMs在多种任务中表现出色，但对其性能的全面评估和理解仍存在不足。
➡️ 研究动机：为了更好地理解MLLMs的优缺点，并为未来的应用和设计提供指导，研究团队对200个MLLMs的评估基准进行了全面回顾，涵盖了感知与理解、认知与推理、特定领域、关键能力和其他模态五个主要方面。研究旨在强调评估在支持MLLMs发展中的重要性，并探讨未来的研究方向。
➡️ 方法简介：研究团队构建了一个包含20-30个子类的评估基准分类体系，涵盖了MLLMs的多个方面。通过分析这些基准，研究团队评估了MLLMs在不同任务中的表现，包括视觉感知、细粒度识别、多模态对话、鲁棒性和安全性等。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括视觉问答（VQA）、细粒度识别、多模态对话等任务。实验设计了不同类型的评估基准，以全面评估MLLMs在不同场景下的表现。此外，研究还统计了自2024年以来在83个基准上表现最佳的前三大MLLMs，结果显示OpenAI的GPT-4和Google的Gemini在多个基准上表现出色。