多模态大语言模型arxiv论文略读（四十）

请添加图片描述

The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative

➡️ 论文标题：The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative
➡️ 论文作者：Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Yu Kong, Tianlong Chen, Huan Liu
➡️ 研究机构: Arizona State University, Michigan State University, University of North Carolina at Chapel Hill, MIT, Harvard University
➡️ 问题背景：多模态大型语言模型（Multimodal Large Language Models, MLLMs）因其处理和响应各种类型数据的卓越能力，正在不断定义人工智能（AI）的新边界。随着这些高级生成模型越来越多地形成协作网络以完成复杂任务，确保这些系统的完整性和安全性变得至关重要。然而，研究发现，MLLM社会中存在一种新的隐蔽漏洞——恶意内容的间接传播。这种威胁不同于直接生成有害输出，而是通过一个MLLM代理被微妙地影响，生成能够诱导其他MLLM代理输出恶意内容的提示。
➡️ 研究动机：现有的研究主要集中在直接操纵MLLMs以产生有害输出，而本研究揭示了通过一个MLLM代理间接影响其他代理生成恶意内容的可能性。这种间接影响可以导致危险指令或虚假信息在整个MLLM社会中生成和传播。研究团队通过实验展示了这种间接生成的提示的可转移性，强调了其通过代理间通信传播恶意内容的可能性。这项研究揭示了MLLMs带来的新的威胁维度，即一个代理可以作为催化剂，引发广泛的恶意影响。研究强调了开发强大的检测和缓解机制以对抗MLLM社会中的这种隐蔽操纵的紧迫性。
➡️ 方法简介：研究团队提出了一种新的攻击设置，假设攻击者对MLLMs有白盒访问权限，如模型的梯度信息。通过在图像输入中注入可学习的噪声，引导“狼”代理生成恶意提示，进而诱导“羊”代理输出有害内容。研究使用了投影梯度下降（PGD）方法优化噪声，以最小化生成的输出与目标恶意内容之间的差异。此外，研究还探讨了这种攻击的可转移性，即优化后的噪声和恶意提示可以直接用于攻击其他未参与优化的MLLM代理。
➡️ 实验设计：研究在两个开源多模态LLM上进行了实验，分别是LLaVA（用于图像-文本输入）和PandaGPT（用于音频-文本输入）。实验设计了14种禁止场景，包括非法活动、儿童伤害、仇恨/骚扰/暴力、恶意软件、身体伤害、经济损失、欺诈/欺骗、成人内容、政治竞选、隐私侵犯、未经授权的法律实践、定制财务建议、未经授权的医疗建议和高风险政府决策。实验结果表明，“狼”代理能够以接近100%的成功率在图像攻击场景中生成和部署恶意内容。研究还通过案例研究展示了图像和音频提示的注入如何促使“狼”代理生成诱导“羊”代理生成有害内容的输出。此外，研究验证了这些攻击的可转移性，即针对特定“羊”代理训练的恶意输出可以适应并攻击网络中的其他代理。

Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image

➡️ 论文标题：Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image
➡️ 论文作者：Zefeng Wang, Zhen Han, Shuo Chen, Fan Xue, Zifeng Ding, Xun Xiao, Volker Tresp, Philip Torr, Jindong Gu
➡️ 研究机构: Technical University of Munich、LMU Munich、Huawei Technologies、University of Oxford
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在文本和图像理解方面表现出强大的能力，引起了广泛关注。为了提高MLLMs在理解复杂内容图像时的性能，链式思维（Chain-of-Thought, CoT）推理被广泛探索，通过生成中间推理步骤（即理由）来提高模型的解释性和推理能力。然而，最近的研究表明，MLLMs在面对对抗性图像时仍然表现出脆弱性，这引发了关于CoT是否能增强MLLMs对抗性鲁棒性的疑问。
➡️ 研究动机：尽管CoT推理在提高MLLMs的解释性和推理能力方面表现出色，但其在对抗性攻击下的表现尚未得到充分研究。为了回答CoT是否能增强MLLMs的对抗性鲁棒性，以及CoT的中间推理步骤在对抗性攻击下意味着什么，研究团队对MLLMs的两个核心组件（即理由和答案）进行了攻击实验，旨在评估CoT在对抗性攻击下的表现，并探索新的攻击方法。
➡️ 方法简介：研究团队首先将现有的攻击方法（即答案攻击和理由攻击）推广到具有CoT推理的MLLMs上，评估了这些模型在攻击下的表现。基于观察，研究团队进一步提出了一种新的攻击方法——停止推理攻击（Stop-Reasoning Attack），该方法旨在中断模型的推理过程，迫使模型直接输出答案，即使在明确要求使用CoT的情况下也是如此。
➡️ 实验设计：研究团队在三个MLLMs（MiniGPT4、OpenFlamingo、LLaVA）和两个视觉问答数据集（A-OKVQA和ScienceQA）上进行了实验。实验设计了不同的攻击方法（如答案攻击、理由攻击和停止推理攻击），以评估模型在不同攻击下的表现。实验结果表明，CoT在一定程度上提高了MLLMs的对抗性鲁棒性，但停止推理攻击能够显著降低这种鲁棒性，导致模型输出错误答案。

CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora

➡️ 论文标题：CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora
➡️ 论文作者：Zijun Long, Xuri Ge, Richard Mccreadie, Joemon Jose
➡️ 研究机构: University of Glasgow
➡️ 问题背景：文本到图像检索（Text-to-Image Retrieval）旨在根据文本查询找到相关的图像，这一技术在数字图书馆、电子商务和多媒体数据库等多种应用场景中具有重要意义。尽管多模态大型语言模型（MLLMs）在这一任务上表现出色，但它们在处理大规模、多样性和模糊性的现实需求时存在局限性，主要体现在计算成本高和注入式嵌入（injective embeddings）的问题上。
➡️ 研究动机：现有的MLLMs方法在处理大规模、多样性和模糊性的数据时，尤其是在涉及长文本查询和多对象图像的复杂查询时，面临效率和效果的双重挑战。为了克服这些挑战，研究团队提出了一种新的两阶段粗到精索引共享检索（Coarse-to-Fine Index-shared Retrieval, CFIR）框架，旨在提高检索的效率和效果。
➡️ 方法简介：研究团队提出了CFIR框架，该框架包括两个核心阶段：基于实体的排名（Entity-based Ranking, ER）和基于摘要的重新排名（Summary-based Re-ranking, SR）。ER阶段通过将长文本查询转换为多个实体查询，从而缓解模糊性和部分关联问题，并有效过滤掉无关的图像候选。SR阶段则通过生成文档摘要并使用这些摘要来重新排名之前识别的实体基础图像候选，进一步提高检索的精确度。
➡️ 实验设计：研究团队在AToMiC数据集上进行了实验，该数据集包含超过2100万张图像和文本文档，提供了两个不同的评估设置：基础设置和大规模设置。实验结果表明，CFIR框架在Recall@1000指标上比现有的MLLMs方法提高了11.06%，同时在训练和检索时间上分别减少了68.75%和99.79%。此外，研究团队还引入了一种专门的Decoupling-BEiT-3编码器，优化了ER和SR阶段的性能，通过解耦视觉和文本输入的编码，显著提高了计算效率。

PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain

➡️ 论文标题：PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain
➡️ 论文作者：Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Peiyi Wang, Xiangdi Meng, Tianyu Liu, Baobao Chang
➡️ 研究机构: 北京大学国家多媒体信息处理重点实验室、阿里巴巴集团
➡️ 问题背景：多模态大语言模型（MLLMs）在处理需要感知、认知和行动等综合技能的复杂任务中展现出了显著的能力。然而，当前的MLLM基准测试往往单独评估这些能力，忽视了大型语言模型（LLMs）对多模态模型的综合贡献。此外，这些基准测试缺乏错误定位技术，使得难以确定模型在决策错误时是视觉部分还是语言部分出现了问题。
➡️ 研究动机：为了解决现有基准测试在综合评估和错误定位上的不足，研究团队引入了PCA-Bench，这是一个多模态决策基准，旨在评估MLLMs在感知-认知-行动链中的综合能力。PCA-Bench涵盖了自动驾驶、家庭机器人和开放世界游戏三个复杂场景，通过提供任务指令和多样化的上下文，要求模型无缝集成多种能力以做出准确的决策。此外，PCA-Bench还具备错误定位能力，能够细致地审查模型在感知、知识或推理方面的不准确性，从而增强MLLMs部署的可靠性。
➡️ 方法简介：研究团队提出了PCA-Eval，一种基于锚点的自动评估协议，利用强大的语义解析能力的LLMs和数据注释中的锚点信息，自动进行错误定位。此外，为了扩大PCA-Bench的规模，研究团队还提出了Embodied Instruction Evolution (EIE)，这是一种自动框架，用于在多模态具身环境中合成指令调优示例。EIE生成了7,510个训练示例，显著提升了开源MLLMs的性能，有时甚至超过了GPT-4 Vision。
➡️ 实验设计：研究团队在PCA-Bench的三个领域（自动驾驶、家庭机器人和开放世界游戏）进行了全面的实验和分析。实验结果表明，GPT4-Vision在感知和基于世界知识的推理方面表现出色，其零样本跨模态推理能力超过了开源MLLMs。EIE生成的训练样本显著提升了开源MLLMs的性能，有时甚至超过了GPT-4 Vision。PCA-Eval在与人类评估结果的高度一致性（平均Kappa系数为0.8+）方面表现良好，能够有效区分模型的正确决策是偶然的还是基于真正的理解。

Multimodal Instruction Tuning with Conditional Mixture of LoRA

➡️ 论文标题：Multimodal Instruction Tuning with Conditional Mixture of LoRA
➡️ 论文作者：Ying Shen, Zhiyang Xu, Qifan Wang, Yu Cheng, Wenpeng Yin, Lifu Huang
➡️ 研究机构: Virginia Tech、Meta AI、The Chinese University of Hong Kong、The Pennsylvania State University
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在处理和整合来自不同模态的信息方面表现出色，尤其是在文本和图像处理上。然而，随着MLLMs的复杂性和规模的增加，参数高效的微调方法（如低秩适应，LoRA）变得至关重要。然而，LoRA在多模态指令调优中面临任务干扰问题，导致性能下降。
➡️ 研究动机：现有的多模态指令调优方法在处理多样化的多模态任务时，由于任务干扰问题，性能会显著下降。为了缓解这一问题，研究团队提出了一种新的方法——条件混合低秩适应（Conditional Mixture-of-LoRA, MixLoRA），旨在通过动态构建低秩适应矩阵来减轻任务干扰，从而提高模型在不同多模态任务中的鲁棒性和适应性。
➡️ 方法简介：研究团队提出了一种系统的方法，通过动态选择低秩分解因子来构建适应矩阵，从而为每个输入实例生成特定的低秩适应矩阵。MixLoRA引入了两个独立因子选择路由器（IFS）和一个条件因子选择路由器（CFS），以确保选择的因子不仅适应输入，而且在A和B矩阵之间保持一致性。
➡️ 实验设计：研究团队在Vision-Flan数据集上进行了多模态指令调优实验，并在MME和其他七个多模态评估数据集上进行了评估。实验设计了不同的任务类型，包括视觉感知、认知能力、光学字符识别、视觉空间推理等，以全面评估MixLoRA在不同任务中的表现。实验结果表明，MixLoRA在相同或更高秩的情况下，始终优于传统的LoRA方法。