UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model
➡️ 论文标题:UnifiedMLLM: Enabling Unified Representation for Multi-modal Multi-tasks With Large Language Model
➡️ 论文作者:Zhaowei Li, Wei Wang, YiQing Cai, Xu Qi, Pengyu Wang, Dong Zhang, Hang Song, Botian Jiang, Zhida Huang, Tao Wang
➡️ 研究机构: ByteDance Inc, Fudan University, University of Science and Technology of China
➡️ 问题背景:多模态大语言模型(MLLMs)在多种任务中展现了卓越的能力,但这些模型通常针对特定任务进行训练,依赖于特定的输入-输出格式,限制了它们在更广泛任务中的应用。这引发了如何开发一种统一的方法来表示和处理不同多模态任务,以最大化MLLMs的通用性的问题。
➡️ 研究动机:现有的多模态大语言模型虽然在特定任务上表现出色,但缺乏处理多种任务的通用性和理解人类意图的能力。为了克服这些限制,研究团队提出了UnifiedMLLM,旨在通过引入任务令牌和定位令牌,实现不同任务的统一表示,从而增强模型的通用性和任务处理能力。
➡️ 方法简介:UnifiedMLLM通过构建任务特定数据集和多任务数据集,采用三阶段训练策略,逐步提升模型的感知理解、任务理解和完成能力。模型结构包括多模态编码器、适配器、统一表示层、任务路由器和专家模型集成。通过这种方式,模型能够理解用户指令的隐含意图,并生成文本响应、任务令牌和定位令牌,指导后续任务的执行。
➡️ 实验设计:实验在多个公开数据集上进行,包括参考分割任务(RefCOCO, RefCOCO+, RefCOCOg)和图像推理编辑任务。实验评估了模型在不同任务中的性能,特别是在复杂场景下的任务理解和完成能力。实验结果表明,UnifiedMLLM在多个任务中表现出色,超越了现有的方法。
Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions
➡️ 论文标题:Caution for the Environment: Multimodal Agents are Susceptible to Environmental Distractions
➡️ 论文作者:Xinbei Ma, Yiting Wang, Yao Yao, Tongxin Yuan, Aston Zhang, Zhuosheng Zhang, Hai Zhao
➡️ 研究机构: Shanghai Jiao Tong University, Meta
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在图形用户界面(GUI)环境中展现了显著的潜力,能够执行复杂的交互任务。然而,这些模型在面对环境中的干扰内容时,是否能够保持对用户目标的忠诚度,仍是一个开放的问题。研究发现,环境中的干扰内容(如广告、弹窗等)可能会导致GUI代理偏离用户目标,执行不相关的操作,甚至表现出不受控制的行为。
➡️ 研究动机:尽管现有研究主要关注多模态代理的有用性(即行动准确性),但本研究旨在探讨这些代理在面对环境干扰时的忠诚度问题。研究团队通过构建模拟数据集,评估了不同MLLMs在干扰环境中的表现,揭示了代理在面对干扰时的脆弱性,并提出了环境注入的对抗性设置,展示了这些干扰可以被恶意利用,导致不可预测的风险。
➡️ 方法简介:研究团队定义了环境干扰问题,并提出了三种行动类型:正确行动、干扰行动和无效行动。通过构建包含四种常见干扰场景(弹窗、搜索、推荐和聊天)的模拟数据集,研究团队评估了不同MLLMs在干扰环境中的表现。实验设计了三种工作模式,分别对应不同的环境感知水平,以全面评估代理在不同条件下的表现。
➡️ 实验设计:实验在10个流行的MLLMs上进行,包括通用代理和专门的GUI代理。实验结果表明,无论是通用代理还是专门的GUI代理,都容易受到环境干扰的影响。研究团队进一步提出了环境注入的对抗性设置,证明了通过利用这些干扰,可以对代理进行攻击,导致其行为偏离用户目标。
Targeted Visual Prompting for Medical Visual Question Answering
➡️ 论文标题:Targeted Visual Prompting for Medical Visual Question Answering
➡️ 论文作者:Sergio Tascon-Morales, Pablo Márquez-Neila, Raphael Sznitman
➡️ 研究机构: University of Bern, Bern, Switzerland
➡️ 问题背景:医疗视觉问答(Med-VQA)近年来迅速发展,多模态大语言模型(MLLMs)因其能够将视觉信息融入预训练的语言模型中,为图像解释带来了新的能力。然而,简单的视觉错误引发了对这些模型实际视觉理解能力的质疑。为了评估和增强模型的视觉理解能力,研究提出了基于区域的问题(Region-based Questions),通过组合评估来实现。
➡️ 研究动机:尽管MLLMs在Med-VQA中表现出色,但其视觉理解能力的不足仍然存在。为了检测这些视觉理解失败并提高模型的解释性,研究团队引入了目标视觉提示(Targeted Visual Prompting),旨在通过提供区域及其上下文的定制视觉提示,增强MLLMs处理局部问题的能力。
➡️ 方法简介:研究团队提出了一种新的方法,通过设计包含全局和局部视觉标记的定制视觉提示,使模型能够从两个角度编码图像:仅包含图像区域的视角和包含区域上下文的视角。该方法允许模型在不增加额外参数的情况下,提高VQA任务的性能。
➡️ 实验设计:研究在三个公开数据集上进行了实验,包括DME-VQA、RIS-VQA和INSEGCAT-VQA。实验设计了多种基线方法,包括不使用区域信息、在问题中指定区域、在图像上标记区域、仅提供上下文、仅提供裁剪区域以及使用二值图像表示区域的方法。实验结果表明,目标视觉提示方法在所有数据集上均优于其他基线方法,特别是在处理局部问题时表现尤为突出。
Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation
➡️ 论文标题:Optimus: Accelerating Large-Scale Multi-Modal LLM Training by Bubble Exploitation
➡️ 论文作者:Weiqi Feng, Yangrui Chen, Shaoyu Wang, Yanghua Peng, Haibin Lin, Minlan Yu
➡️ 研究机构: Harvard University, Bytedance
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种数据类型(如图像、文本和音频)上取得了显著的性能,广泛应用于多模态翻译、视觉问答和内容生成等领域。然而,现有的分布式训练系统在训练MLLMs时效率低下,主要原因是异构模态模型和3D并行中的复杂数据依赖导致了大量GPU空闲时间(bubbles)。
➡️ 研究动机:现有的优化方法主要针对单模态模型,未能有效解决MLLMs训练中的GPU空闲问题。研究团队通过分析大规模MLLMs训练任务,发现超过48%的GPU周期被浪费。为了提高训练效率,研究团队提出了Optimus系统,通过在LLM空闲时间内调度编码器计算,减少GPU空闲时间,从而加速MLLMs的训练。
➡️ 方法简介:Optimus系统通过以下核心设计决策来实现高效训练:
- 编码器和LLM的独立并行计划:每个GPU同时持有编码器和LLM的模型状态,确保所有GPU都能在LLM空闲时间内执行编码器计算。
- 双阶段依赖管理:通过局部调度和全局排序来处理MLLM训练中的复杂依赖关系,确保编码器和LLM之间的微批次级依赖。
- 内核级调度:将编码器层分解为内核,利用亚毫秒级的空闲时间,同时在LLM计算期间调度编码器通信内核,以减少迭代时间。
➡️ 实验设计:研究团队在多个代表性的MLLM模型上进行了实验,包括ViT-22B和GPT-175B模型,使用超过3072个GPU。实验结果表明,Optimus系统在训练过程中平均加速了20.3%,在生产集群中加速了20.5%-21.3%。实验还验证了Optimus在不同模型规模和GPU数量下的良好扩展性。
NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention
➡️ 论文标题:NatLan: Native Language Prompting Facilitates Knowledge Elicitation Through Language Trigger Provision and Domain Trigger Retention
➡️ 论文作者:Baixuan Li, Yunlong Fan, Tianyi Ma, Zhiqiang Gao
➡️ 研究机构: 东南大学、密歇根州立大学
➡️ 问题背景:多语言大型语言模型(MLLMs)在非主导语言中的表现不如在主导语言中。尽管现有的翻译-回答方法在一定程度上缓解了这一问题,但其背后的机制尚不明确。研究发现,这些方法虽然提供了足够的语言触发(LTs),但在领域触发(DTs)的保留上存在不足。
➡️ 研究动机:为了进一步理解翻译-回答方法的有效性及其对MLLMs中主导语言知识提取的影响,研究团队通过类比人类认知过程中的语言触发(LTs)和领域触发(DTs),分析了现有方法的局限性,并提出了一种新的方法——原生语言提示(NatLan),以改善非主导语言问答中的知识提取。
➡️ 方法简介:研究团队提出了NatLan,采用多MLLM协作策略,引入了一个增强角色的领域特定MLLM作为翻译者,以提供足够的LTs并最大限度地保留DTs。NatLan通过构建领域特定的角色指令和少量示例(5-shot)来注入领域特定的上下文,从而实现个体增强和联合增强。
➡️ 实验设计:研究在五个非主导语言问答基准上进行了实验,包括多语言MMLU(MMMLU)和C-Eval中文基准。实验设计了不同语言(如阿拉伯语、中文、法语、德语和日语)的问答任务,以评估NatLan在不同条件下的表现。实验结果表明,NatLan在DTs保留和准确性方面均优于现有的顶级方法。