多模态大语言模型arxiv论文略读(四十)

news2025/7/18 21:54:14

请添加图片描述

The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative

➡️ 论文标题:The Wolf Within: Covert Injection of Malice into MLLM Societies via an MLLM Operative
➡️ 论文作者:Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Yu Kong, Tianlong Chen, Huan Liu
➡️ 研究机构: Arizona State University, Michigan State University, University of North Carolina at Chapel Hill, MIT, Harvard University
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)因其处理和响应各种类型数据的卓越能力,正在不断定义人工智能(AI)的新边界。随着这些高级生成模型越来越多地形成协作网络以完成复杂任务,确保这些系统的完整性和安全性变得至关重要。然而,研究发现,MLLM社会中存在一种新的隐蔽漏洞——恶意内容的间接传播。这种威胁不同于直接生成有害输出,而是通过一个MLLM代理被微妙地影响,生成能够诱导其他MLLM代理输出恶意内容的提示。
➡️ 研究动机:现有的研究主要集中在直接操纵MLLMs以产生有害输出,而本研究揭示了通过一个MLLM代理间接影响其他代理生成恶意内容的可能性。这种间接影响可以导致危险指令或虚假信息在整个MLLM社会中生成和传播。研究团队通过实验展示了这种间接生成的提示的可转移性,强调了其通过代理间通信传播恶意内容的可能性。这项研究揭示了MLLMs带来的新的威胁维度,即一个代理可以作为催化剂,引发广泛的恶意影响。研究强调了开发强大的检测和缓解机制以对抗MLLM社会中的这种隐蔽操纵的紧迫性。
➡️ 方法简介:研究团队提出了一种新的攻击设置,假设攻击者对MLLMs有白盒访问权限,如模型的梯度信息。通过在图像输入中注入可学习的噪声,引导“狼”代理生成恶意提示,进而诱导“羊”代理输出有害内容。研究使用了投影梯度下降(PGD)方法优化噪声,以最小化生成的输出与目标恶意内容之间的差异。此外,研究还探讨了这种攻击的可转移性,即优化后的噪声和恶意提示可以直接用于攻击其他未参与优化的MLLM代理。
➡️ 实验设计:研究在两个开源多模态LLM上进行了实验,分别是LLaVA(用于图像-文本输入)和PandaGPT(用于音频-文本输入)。实验设计了14种禁止场景,包括非法活动、儿童伤害、仇恨/骚扰/暴力、恶意软件、身体伤害、经济损失、欺诈/欺骗、成人内容、政治竞选、隐私侵犯、未经授权的法律实践、定制财务建议、未经授权的医疗建议和高风险政府决策。实验结果表明,“狼”代理能够以接近100%的成功率在图像攻击场景中生成和部署恶意内容。研究还通过案例研究展示了图像和音频提示的注入如何促使“狼”代理生成诱导“羊”代理生成有害内容的输出。此外,研究验证了这些攻击的可转移性,即针对特定“羊”代理训练的恶意输出可以适应并攻击网络中的其他代理。

Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image

➡️ 论文标题:Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image
➡️ 论文作者:Zefeng Wang, Zhen Han, Shuo Chen, Fan Xue, Zifeng Ding, Xun Xiao, Volker Tresp, Philip Torr, Jindong Gu
➡️ 研究机构: Technical University of Munich、LMU Munich、Huawei Technologies、University of Oxford
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在文本和图像理解方面表现出强大的能力,引起了广泛关注。为了提高MLLMs在理解复杂内容图像时的性能,链式思维(Chain-of-Thought, CoT)推理被广泛探索,通过生成中间推理步骤(即理由)来提高模型的解释性和推理能力。然而,最近的研究表明,MLLMs在面对对抗性图像时仍然表现出脆弱性,这引发了关于CoT是否能增强MLLMs对抗性鲁棒性的疑问。
➡️ 研究动机:尽管CoT推理在提高MLLMs的解释性和推理能力方面表现出色,但其在对抗性攻击下的表现尚未得到充分研究。为了回答CoT是否能增强MLLMs的对抗性鲁棒性,以及CoT的中间推理步骤在对抗性攻击下意味着什么,研究团队对MLLMs的两个核心组件(即理由和答案)进行了攻击实验,旨在评估CoT在对抗性攻击下的表现,并探索新的攻击方法。
➡️ 方法简介:研究团队首先将现有的攻击方法(即答案攻击和理由攻击)推广到具有CoT推理的MLLMs上,评估了这些模型在攻击下的表现。基于观察,研究团队进一步提出了一种新的攻击方法——停止推理攻击(Stop-Reasoning Attack),该方法旨在中断模型的推理过程,迫使模型直接输出答案,即使在明确要求使用CoT的情况下也是如此。
➡️ 实验设计:研究团队在三个MLLMs(MiniGPT4、OpenFlamingo、LLaVA)和两个视觉问答数据集(A-OKVQA和ScienceQA)上进行了实验。实验设计了不同的攻击方法(如答案攻击、理由攻击和停止推理攻击),以评估模型在不同攻击下的表现。实验结果表明,CoT在一定程度上提高了MLLMs的对抗性鲁棒性,但停止推理攻击能够显著降低这种鲁棒性,导致模型输出错误答案。

CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora

➡️ 论文标题:CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora
➡️ 论文作者:Zijun Long, Xuri Ge, Richard Mccreadie, Joemon Jose
➡️ 研究机构: University of Glasgow
➡️ 问题背景:文本到图像检索(Text-to-Image Retrieval)旨在根据文本查询找到相关的图像,这一技术在数字图书馆、电子商务和多媒体数据库等多种应用场景中具有重要意义。尽管多模态大型语言模型(MLLMs)在这一任务上表现出色,但它们在处理大规模、多样性和模糊性的现实需求时存在局限性,主要体现在计算成本高和注入式嵌入(injective embeddings)的问题上。
➡️ 研究动机:现有的MLLMs方法在处理大规模、多样性和模糊性的数据时,尤其是在涉及长文本查询和多对象图像的复杂查询时,面临效率和效果的双重挑战。为了克服这些挑战,研究团队提出了一种新的两阶段粗到精索引共享检索(Coarse-to-Fine Index-shared Retrieval, CFIR)框架,旨在提高检索的效率和效果。
➡️ 方法简介:研究团队提出了CFIR框架,该框架包括两个核心阶段:基于实体的排名(Entity-based Ranking, ER)和基于摘要的重新排名(Summary-based Re-ranking, SR)。ER阶段通过将长文本查询转换为多个实体查询,从而缓解模糊性和部分关联问题,并有效过滤掉无关的图像候选。SR阶段则通过生成文档摘要并使用这些摘要来重新排名之前识别的实体基础图像候选,进一步提高检索的精确度。
➡️ 实验设计:研究团队在AToMiC数据集上进行了实验,该数据集包含超过2100万张图像和文本文档,提供了两个不同的评估设置:基础设置和大规模设置。实验结果表明,CFIR框架在Recall@1000指标上比现有的MLLMs方法提高了11.06%,同时在训练和检索时间上分别减少了68.75%和99.79%。此外,研究团队还引入了一种专门的Decoupling-BEiT-3编码器,优化了ER和SR阶段的性能,通过解耦视觉和文本输入的编码,显著提高了计算效率。

PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain

➡️ 论文标题:PCA-Bench: Evaluating Multimodal Large Language Models in Perception-Cognition-Action Chain
➡️ 论文作者:Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Peiyi Wang, Xiangdi Meng, Tianyu Liu, Baobao Chang
➡️ 研究机构: 北京大学国家多媒体信息处理重点实验室、阿里巴巴集团
➡️ 问题背景:多模态大语言模型(MLLMs)在处理需要感知、认知和行动等综合技能的复杂任务中展现出了显著的能力。然而,当前的MLLM基准测试往往单独评估这些能力,忽视了大型语言模型(LLMs)对多模态模型的综合贡献。此外,这些基准测试缺乏错误定位技术,使得难以确定模型在决策错误时是视觉部分还是语言部分出现了问题。
➡️ 研究动机:为了解决现有基准测试在综合评估和错误定位上的不足,研究团队引入了PCA-Bench,这是一个多模态决策基准,旨在评估MLLMs在感知-认知-行动链中的综合能力。PCA-Bench涵盖了自动驾驶、家庭机器人和开放世界游戏三个复杂场景,通过提供任务指令和多样化的上下文,要求模型无缝集成多种能力以做出准确的决策。此外,PCA-Bench还具备错误定位能力,能够细致地审查模型在感知、知识或推理方面的不准确性,从而增强MLLMs部署的可靠性。
➡️ 方法简介:研究团队提出了PCA-Eval,一种基于锚点的自动评估协议,利用强大的语义解析能力的LLMs和数据注释中的锚点信息,自动进行错误定位。此外,为了扩大PCA-Bench的规模,研究团队还提出了Embodied Instruction Evolution (EIE),这是一种自动框架,用于在多模态具身环境中合成指令调优示例。EIE生成了7,510个训练示例,显著提升了开源MLLMs的性能,有时甚至超过了GPT-4 Vision。
➡️ 实验设计:研究团队在PCA-Bench的三个领域(自动驾驶、家庭机器人和开放世界游戏)进行了全面的实验和分析。实验结果表明,GPT4-Vision在感知和基于世界知识的推理方面表现出色,其零样本跨模态推理能力超过了开源MLLMs。EIE生成的训练样本显著提升了开源MLLMs的性能,有时甚至超过了GPT-4 Vision。PCA-Eval在与人类评估结果的高度一致性(平均Kappa系数为0.8+)方面表现良好,能够有效区分模型的正确决策是偶然的还是基于真正的理解。

Multimodal Instruction Tuning with Conditional Mixture of LoRA

➡️ 论文标题:Multimodal Instruction Tuning with Conditional Mixture of LoRA
➡️ 论文作者:Ying Shen, Zhiyang Xu, Qifan Wang, Yu Cheng, Wenpeng Yin, Lifu Huang
➡️ 研究机构: Virginia Tech、Meta AI、The Chinese University of Hong Kong、The Pennsylvania State University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理和整合来自不同模态的信息方面表现出色,尤其是在文本和图像处理上。然而,随着MLLMs的复杂性和规模的增加,参数高效的微调方法(如低秩适应,LoRA)变得至关重要。然而,LoRA在多模态指令调优中面临任务干扰问题,导致性能下降。
➡️ 研究动机:现有的多模态指令调优方法在处理多样化的多模态任务时,由于任务干扰问题,性能会显著下降。为了缓解这一问题,研究团队提出了一种新的方法——条件混合低秩适应(Conditional Mixture-of-LoRA, MixLoRA),旨在通过动态构建低秩适应矩阵来减轻任务干扰,从而提高模型在不同多模态任务中的鲁棒性和适应性。
➡️ 方法简介:研究团队提出了一种系统的方法,通过动态选择低秩分解因子来构建适应矩阵,从而为每个输入实例生成特定的低秩适应矩阵。MixLoRA引入了两个独立因子选择路由器(IFS)和一个条件因子选择路由器(CFS),以确保选择的因子不仅适应输入,而且在A和B矩阵之间保持一致性。
➡️ 实验设计:研究团队在Vision-Flan数据集上进行了多模态指令调优实验,并在MME和其他七个多模态评估数据集上进行了评估。实验设计了不同的任务类型,包括视觉感知、认知能力、光学字符识别、视觉空间推理等,以全面评估MixLoRA在不同任务中的表现。实验结果表明,MixLoRA在相同或更高秩的情况下,始终优于传统的LoRA方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2343462.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【蓝桥杯选拔赛真题104】Scratch回文数 第十五届蓝桥杯scratch图形化编程 少儿编程创意编程选拔赛真题解析

目录 scratch回文数 一、题目要求 1、准备工作 2、功能实现 二、案例分析 1、角色分析 2、背景分析 3、前期准备 三、解题思路 四、程序编写 五、考点分析 六、推荐资料 1、scratch资料 2、python资料 3、C++资料 scratch回文数 第十五届青少年蓝桥杯scratch编…

OpenWrt 与 Docker:打造轻量级容器化应用平台技术分享

文章目录 前言一、OpenWrt 与 Docker 的集成前提1.1 硬件与内核要求1.2 软件依赖 二、Docker 环境部署与验证2.1 基础服务配置2.2 存储驱动适配 三、容器化应用部署实践3.1 资源限制策略3.2 Docker Compose 适配 四、性能优化与监控4.1 容器资源监控4.2 镜像精简策略 五、典型问…

C++初阶----模板初阶

引言 什么是模板 模板是泛型编程的基础,泛型编程是以一种独立于任何特定类型的方式编写代码。 模板也是创建泛型类或者函数的蓝图。 如:库容器,迭代器和算法,都是泛型编程的例子 1. 泛型编程 首先,我们应该了解什么是…

网络流量分析 | 流量分析基础

流量分析是网络安全领域的一个子领域,其主要重点是调查网络数据,以发现问题和异常情况。本文将涵盖网络安全和流量分析的基础知识。 网络安全与网络中的数据 网络安全的两个最关键概念就是:认证(Authentication)和授…

C语言文件操作完全手册:读写·定位·实战

1.什么是文件 1.1文件的概念 文件(File)是计算机中用于持久化存储数据的基本单位。它可以存储文本、图片、音频、程序代码等各种信息,并在程序运行结束后仍然保留数据。 1.2文件名 一个文件要有一个唯一的文件标识,以便用户识别…

多模态大语言模型arxiv论文略读(三十七)

A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models ➡️ 论文标题:A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models ➡️ 论文作者:Jie Liu, Wenxuan Wang, Yihang Su, Jingyuan Huan, …

SpringBoot 学习

什么是 SpringBoot SpringBoot 是基于 Spring 生态的开源框架,旨在简化 Spring 应用的初始化搭建和开发配置。它通过约定大于配置的理念,提供快速构建生产级应用的解决方案,显著降低开发者对 XML 配置和依赖管理的负担。 特点: …

VuePress 使用教程:从入门到精通

VuePress 使用教程:从入门到精通 VuePress 是一个以 Vue 驱动的静态网站生成器,它为技术文档和技术博客的编写提供了优雅而高效的解决方案。无论你是个人开发者、团队负责人还是开源项目维护者,VuePress 都能帮助你轻松地创建和管理你的文档…

卷积神经网络--手写数字识别

本文我们通过搭建卷积神经网络模型,实现手写数字识别。 pytorch中提供了手写数字的数据集 ,我们可以直接从pytorch中下载 MNIST中包含70000张手写数字图像:60000张用于训练,10000张用于测试 图像是灰度的,28x28像素 …

SQL Server 2019 安装与配置详细教程

一、写在最前的心里话 和 MySQL 对比,SQL Server 的安装和使用确实要处理很多细节: 需要选择配置项很多有“定义实例”的概念,同一机器可以运行多个数据库服务设置身份验证方式时,需要同时配置 Windows 和 SQL 登录要想 Spring …

MyBatisPlus文档

一、MyBatis框架回顾 使用springboot整合Mybatis,实现Mybatis框架的搭建 1、创建示例项目 (1)、创建工程 新建工程 创建空工程 创建模块 创建springboot模块 选择SpringBoot版本 (2)、引入依赖 <dependencies><dependency><groupId>org.springframework.…

Memcached 主主复制架构搭建与 Keepalived 高可用实现

实验目的 掌握基于 repcached 的 Memcached 主主复制配置 实现通过 Keepalived 的 VIP 高可用机制 验证数据双向同步及故障自动切换能力 实验环境 角色IP 地址主机名虚拟 IP (VIP)主节点10.1.1.78server-a10.1.1.80备节点10.1.1.79server-b10.1.1.80 操作系统: CentOS 7 软…

鸿蒙ArkUI之相对布局容器(RelativeContainer)实战之狼人杀布局,详细介绍相对布局容器的用法,附上代码,以及效果图

在鸿蒙应用开发中&#xff0c;若是遇到布局相对复杂的场景&#xff0c;往往需要嵌套许多层组件&#xff0c;去还原UI图的效果&#xff0c;若是能够掌握相对布局容器的使用&#xff0c;对于复杂的布局场景&#xff0c;可直接减少组件嵌套&#xff0c;且随心所欲完成复杂场景的布…

线程函数库

pthread_create函数 pthread_create 是 POSIX 线程库&#xff08;pthread&#xff09;中的一个函数&#xff0c;用于创建一个新的线程。 头文件 #include <pthread.h> 函数原型 int pthread_create(pthread_t *thread, const pthread_attr_t *attr,void *(*s…

[C]基础13.深入理解指针(5)

博客主页&#xff1a;向不悔本篇专栏&#xff1a;[C]您的支持&#xff0c;是我的创作动力。 文章目录 0、总结1、sizeof和strlen的对比1.1 sizeof1.2 strlen1.3 sizeof和strlen的对比 2、数组和指针笔试题解析2.1 一维数组2.2 字符数组2.2.1 代码12.2.2 代码22.2.3 代码32.2.4 …

OpenCV 图形API(60)颜色空间转换-----将图像从 YUV 色彩空间转换为 RGB 色彩空间函数YUV2RGB()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 将图像从 YUV 色彩空间转换为 RGB。 该函数将输入图像从 YUV 色彩空间转换为 RGB。Y、U 和 V 通道值的常规范围是 0 到 255。 输出图像必须是 8…

hbuilderx云打包生成的ipa文件如何上架

使用hbuilderx打包&#xff0c;会遇到一个问题。开发的ios应用&#xff0c;需要上架到app store&#xff0c;因此&#xff0c;就需要APP store的签名证书&#xff0c;并且还需要一个像xcode那样的工具来上架app store。 我们这篇文章说明下&#xff0c;如何在windows电脑&…

Golang | 位运算

位运算比常规运算快&#xff0c;常用于搜索引擎的筛选功能。例如&#xff0c;数字除以二等价于向右移位&#xff0c;位移运算比除法快。

产品动态|千眼狼sCMOS科学相机捕获单分子荧光信号

单分子荧光成像技术&#xff0c;作为生物分子动态研究的关键工具&#xff0c;对捕捉微弱信号要求严苛。传统EMCCD相机因成本高昂&#xff0c;动态范围有限&#xff0c;满阱容量低等问题&#xff0c;制约单分子研究成果产出效率。 千眼狼精准把握科研需求与趋势&#xff0c;自研…

Hot100方法及易错点总结2

本文旨在记录做hot100时遇到的问题及易错点 五、234.回文链表141.环形链表 六、142. 环形链表II21.合并两个有序链表2.两数相加19.删除链表的倒数第n个节点 七、24.两两交换链表中的节点25.K个一组翻转链表(坑点很多&#xff0c;必须多做几遍)138.随机链表的复制148.排序链表 N…