多模态大语言模型arxiv论文略读(112)

news2025/6/10 7:42:06

在这里插入图片描述

Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models

➡️ 论文标题:Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models
➡️ 论文作者:Jean Park, Kuk Jin Jang, Basam Alasaly, Sriharsha Mopidevi, Andrew Zolensky, Eric Eaton, Insup Lee, Kevin Johnson
➡️ 研究机构: University of Pennsylvania (Department of Computer and Information Science, Perelman School of Medicine)
➡️ 问题背景:当前的视频问答(VidQA)基准和数据集往往偏向单一模态,尽管其目标是要求高级的推理技能,整合多种模态来回答问题。这种模态偏见限制了对模型多模态整合能力的评估。
➡️ 研究动机:为了识别和量化这种模态偏见,研究团队提出了一种新的模态重要性评分(MIS),用于评估每个模态在回答问题中的贡献。通过这种方法,研究团队旨在揭示现有数据集中存在的单模态偏见,并强调需要更多平衡和具有挑战性的多模态问题。
➡️ 方法简介:研究团队定义了模态重要性评分(MIS),通过评估在不同模态组合下模型的性能变化来量化每个模态的贡献。MIS通过计算包含特定模态的组合与不包含该模态的组合之间的性能差异来定义。此外,研究团队利用多模态大语言模型(MLLMs)来估计MIS,以评估模态在多模态问答任务中的重要性。
➡️ 实验设计:研究团队在三个VidQA数据集(TVQA、LifeQA、AVQA)上进行了实验,评估了四个多模态VidQA模型在不同模态组合下的表现。实验设计包括对模态特征进行排列组合,以评估模型在不同条件下的模态整合能力。此外,研究团队还进行了人类研究,以验证MLLMs估计的MIS与人类对模态重要性的感知之间的对齐程度。

Semantic Alignment for Multimodal Large Language Models

➡️ 论文标题:Semantic Alignment for Multimodal Large Language Models
➡️ 论文作者:Tao Wu, Mengze Li, Jingyuan Chen, Wei Ji, Wang Lin, Jinyang Gao, Kun Kuang, Zhou Zhao, Fei Wu
➡️ 研究机构: 浙江大学、新加坡国立大学、阿里巴巴集团
➡️ 问题背景:多模态大语言模型(MLLMs)在处理多图像跨模态指令方面展现出巨大潜力,尤其是在处理相似图像的任务中,如GPT-4V(ision)。然而,当面对内容、上下文或风格显著不同的图像时,MLLMs的性能会显著下降,尤其是在教育图像中,模型难以建立图像间的有意义的语义连接。
➡️ 研究动机:现有的MLLMs在处理多图像时,通常采用两步流程:首先独立提取每个输入图像的视觉标记,然后在大型语言模型(LLM)的文本特征空间中对齐这些视觉标记。这种独立提取可能导致不同图像间的关键“链接”信息丢失,尤其是在图像背景差异较大的情况下。为了解决这一问题,研究团队提出了语义对齐方法(SAM),通过在视觉标记提取过程中引入双向语义引导机制,增强不同图像间的语义对齐。
➡️ 方法简介:SAM模型通过在图像感知阶段引入双向语义引导机制,解决了多图像输入中的语义错位问题。该机制包括两个交互过程:辅助视觉标记提取(Part A)和上下文语义生成(Part B)。在Part A中,Q-former层基于自然语言查询处理当前感知图像,提取初始视觉标记;在Part B中,W-former模块利用初始视觉标记从上下文图像中提取同步的上下文语义,这些语义再反馈给Q-former层,以指导视觉标记的更新。
➡️ 实验设计:研究团队构建了一个名为MmLINK的大规模多模态数据集,包含69,000个样本,旨在增强模型的跨模态多图像语义对齐和关联挖掘能力。实验在多图像描述任务和故事叙述任务上进行了广泛的测试,结果表明,SAM模型在这些任务上的表现显著优于现有方法,分别在组描述任务和故事叙述任务上提高了37%和22%的CIDEr分数。

IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities

➡️ 论文标题:IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities
➡️ 论文作者:Bin Wang, Chunyu Xie, Dawei Leng, Yuhui Yin
➡️ 研究机构: 360 AI Research
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现出巨大潜力,如将图像中的文本转录、基于图像生成故事和诗歌、将网页截图转换为代码等。然而,现有的MLLMs在训练过程中通常会解冻语言模型,以促进深度视觉理解,这导致了模型在自然语言处理(NLP)任务上的性能下降。
➡️ 研究动机:为了防止MLLMs在训练过程中语言能力的下降,研究团队提出了一种新的训练范式——内适配器架构(Inner-Adaptor Architecture, IAA)。该架构能够在不牺牲原有语言模型能力的情况下,增强模型的多模态能力。
➡️ 方法简介:IAA架构通过在大型语言模型的不同深度插入多个多模态适配器,实现与文本导向的Transformer层的直接交互,从而使冻结的语言模型获得多模态能力。与以往需要大规模对齐数据的方法不同,IAA架构在小规模数据集上也能表现出色。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括MME、MMBench、MMMU和RefCOCO等,评估了模型在一般多模态能力和视觉定位能力方面的表现。实验结果表明,IAA架构在各种视觉-语言基准测试中显著优于现有的最先进方法,且在NLP任务上没有性能下降。

ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models

➡️ 论文标题:ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models
➡️ 论文作者:Yeji Park, Deokyeong Lee, Junsuk Choe, Buru Chang
➡️ 研究机构: Sogang University
➡️ 问题背景:多模态大语言模型(MLLMs)在生成响应时,经常出现与给定图像不一致的幻觉现象,这严重影响了模型的可靠性。例如,在医疗应用中,幻觉可能导致错误诊断;在基于MLLMs的自主系统中,可能导致错误的解释。这一问题对MLLMs在关键领域的应用构成了重大障碍。
➡️ 研究动机:为了解决MLLMs中的幻觉问题,研究团队提出了一种新的训练自由的对比解码方法——ConVis。ConVis通过利用文本到图像(T2I)生成模型来重建图像,从而捕捉视觉对比信号,减少幻觉生成。该方法完全在解码过程中操作,无需额外的数据或模型更新。
➡️ 方法简介:ConVis首先使用MLLM生成图像的描述,然后利用T2I模型根据生成的描述重建图像。通过比较原始图像和重建图像的概率分布,ConVis能够捕捉到视觉对比信号,从而在解码过程中减少幻觉生成。具体来说,如果生成的描述中包含幻觉(例如“书”),T2I模型将在重建的图像中忠实可视化这些幻觉,从而在对比分布中放大这些幻觉对应的词元的logits。
➡️ 实验设计:研究团队在五个基准数据集上进行了实验,包括CHAIR、HallusionBench、POPE、MME和LLaVA-Bench。实验评估了ConVis在不同MLLMs(如LLaVA-1.5、MiniGPT-4和mPLUG-Owl2)上的表现。结果表明,ConVis在减少幻觉的同时,保持了整体响应生成性能。

Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos

➡️ 论文标题:Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos
➡️ 论文作者:Jiajun Fei, Dian Li, Zhidong Deng, Zekun Wang, Gang Liu, Hui Wang
➡️ 研究机构: Tsinghua University、Tencent QQ
➡️ 问题背景:多模态大语言模型(MLLMs)在各种需要跨领域知识的下游任务中展示了巨大的潜力。特别是能够处理视频的Video-MLLMs,在视频-语言理解领域受到了广泛关注。然而,视频,尤其是长视频,包含的视觉标记比图像多得多,这使得LLMs难以处理。现有的方法要么降低视觉特征的采样率,要么扩展LLM的上下文大小,但这些方法可能会导致高分辨率信息的丢失或推理速度的减慢。
➡️ 研究动机:为了克服上述限制,研究团队提出了一种新的Video-MLLM——Video-CCAM,通过在视觉编码器和大语言模型(LLM)之间的中间投影器中应用交叉注意力层,并引入因果交叉注意力掩码(CCAMs),以提高模型处理视频时的时序一致性和效率。研究旨在为视频-语言理解提供一个高效且强大的基线模型。
➡️ 方法简介:Video-CCAM模型由三个主要部分组成:处理图像和视频的视觉编码器、处理视觉和文本嵌入的LLM,以及连接两者的CCAM投影器。CCAM投影器通过固定数量的查询来处理不同帧数的视频,并通过因果交叉注意力掩码确保查询的时序顺序,从而增强模型的视频理解能力。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括MVBench、VideoVista、MLVU、VideoChatGPT-QA和Video-MME。实验评估了Video-CCAM在不同视频长度和任务类型(如理解、推理、生成等)上的表现。实验结果表明,Video-CCAM在多个基准测试中取得了优异的成绩,尤其是在处理长视频时表现出色。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2406363.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【向量库】Weaviate概述与架构解析

文章目录 一、什么是weaviate二、High-Level Architecture1. Core Components2. Storage Layer3. 组件交互流程 三、核心组件1. API Layer2. Schema Management3. Vector Indexing3.1. 查询原理3.2. 左侧:Search Process(搜索流程)3.3. 右侧&…

统计按位或能得到最大值的子集数目

我们先来看题目描述: 给你一个整数数组 nums ,请你找出 nums 子集 按位或 可能得到的 最大值 ,并返回按位或能得到最大值的 不同非空子集的数目 。 如果数组 a 可以由数组 b 删除一些元素(或不删除)得到,…

vue3 手动封装城市三级联动

要做的功能 示意图是这样的&#xff0c;因为后端给的数据结构 不足以使用ant-design组件 的联动查询组件 所以只能自己分装 组件 当然 这个数据后端给的不一样的情况下 可能组件内对应的 逻辑方式就不一样 毕竟是 三个 数组 省份 城市 区域 我直接粘贴组件代码了 <temp…

Linux【5】-----编译和烧写Linux系统镜像(RK3568)

参考&#xff1a;讯为 1、文件系统 不同的文件系统组成了&#xff1a;debian、ubuntu、buildroot、qt等系统 每个文件系统的uboot和kernel是一样的 2、源码目录介绍 目录 3、正式编译 编译脚本build.sh 帮助内容如下&#xff1a; Available options: uboot …

Heygem50系显卡合成的视频声音杂音模糊解决方案

如果你在使用50系显卡有杂音的情况&#xff0c;可能还是官方适配问题&#xff0c;可以使用以下方案进行解决&#xff1a; 方案一&#xff1a;剪映替换音色&#xff08;简单适合普通玩家&#xff09; 使用剪映换音色即可&#xff0c;口型还是对上的&#xff0c;没有剪映vip的&…

Gitlab + Jenkins 实现 CICD

CICD 是持续集成&#xff08;Continuous Integration, CI&#xff09;和持续交付/部署&#xff08;Continuous Delivery/Deployment, CD&#xff09;的缩写&#xff0c;是现代软件开发中的一种自动化流程实践。下面介绍 Web 项目如何在代码提交到 Gitlab 后&#xff0c;自动发布…

无头浏览器技术:Python爬虫如何精准模拟搜索点击

1. 无头浏览器技术概述 1.1 什么是无头浏览器&#xff1f; 无头浏览器是一种没有图形用户界面&#xff08;GUI&#xff09;的浏览器&#xff0c;它通过程序控制浏览器内核&#xff08;如Chromium、Firefox&#xff09;执行页面加载、JavaScript渲染、表单提交等操作。由于不渲…

SDU棋界精灵——硬件程序ESP32实现opus编码

一、 ​​音频处理框架​ 该项目基于Espressif的音频处理框架构建,核心组件包括 ESP-ADF 和 ESP-SR,以下是完整的音频处理框架实现细节: 1.核心组件 (1) 音频前端处理 (AFE - Audio Front-End) ​​main/components/audio_pipeline/afe_processor.c​​功能​​: 声学回声…

Spring AI中使用ChatMemory实现会话记忆功能

文章目录 1、需求2、ChatMemory中消息的存储位置3、实现步骤1、引入依赖2、配置Spring AI3、配置chatmemory4、java层传递conversaionId 4、验证5、完整代码6、参考文档 1、需求 我们知道大型语言模型 &#xff08;LLM&#xff09; 是无状态的&#xff0c;这就意味着他们不会保…

Qt 按钮类控件(Push Button 与 Radio Button)(1)

文章目录 Push Button前提概要API接口给按钮添加图标给按钮添加快捷键 Radio ButtonAPI接口性别选择 Push Button&#xff08;鼠标点击不放连续移动快捷键&#xff09; Radio Button Push Button 前提概要 1. 之前文章中所提到的各种跟QWidget有关的各种属性/函数/方法&#…

生成对抗网络(GAN)损失函数解读

GAN损失函数的形式&#xff1a; 以下是对每个部分的解读&#xff1a; 1. ⁡, ​ &#xff1a;这个部分表示生成器&#xff08;Generator&#xff09;G的目标是最小化损失函数。 &#xff1a;判别器&#xff08;Discriminator&#xff09;D的目标是最大化损失函数。 GAN的训…

汇编语言学习(三)——DoxBox中debug的使用

目录 一、安装DoxBox&#xff0c;并下载汇编工具&#xff08;MASM文件&#xff09; 二、debug是什么 三、debug中的命令 一、安装DoxBox&#xff0c;并下载汇编工具&#xff08;MASM文件&#xff09; 链接&#xff1a; https://pan.baidu.com/s/1IbyJj-JIkl_oMOJmkKiaGQ?pw…

数据可视化交互

目录 【实验目的】 【实验原理】 【实验环境】 【实验步骤】 一、安装 pyecharts 二、下载数据 三、实验任务 实验 1&#xff1a;AQI 横向对比条形图 代码说明&#xff1a; 运行结果&#xff1a; 实验 2&#xff1a;AQI 等级分布饼图 实验 3&#xff1a;多城市 AQI…

安宝特方案丨从依赖经验到数据驱动:AR套件重构特种装备装配与质检全流程

在高压电气装备、军工装备、石油测井仪器装备、计算存储服务器和机柜、核磁医疗装备、大型发动机组等特种装备生产型企业&#xff0c;其产品具有“小批量、多品种、人工装配、价值高”的特点。 生产管理中存在传统SOP文件内容缺失、SOP更新不及、装配严重依赖个人经验、产品装…

【JavaEE】万字详解HTTP协议

HTTP是什么&#xff1f;-----互联网的“快递小哥” 想象我们正在网上购物&#xff1a;打开淘宝APP&#xff0c;搜索“蓝牙耳机”&#xff0c;点击商品图片&#xff0c;然后下单付款。这一系列操作背后&#xff0c;其实有一个看不见的“快递小哥”在帮我们传递信息&#xff0c;…

华为云Flexus+DeepSeek征文 | MaaS平台避坑指南:DeepSeek商用服务开通与成本控制

作者简介 我是摘星&#xff0c;一名专注于云计算和AI技术的开发者。本次通过华为云MaaS平台体验DeepSeek系列模型&#xff0c;将实际使用经验分享给大家&#xff0c;希望能帮助开发者快速掌握华为云AI服务的核心能力。 目录 作者简介 前言 一、技术架构概览 1.1 整体架构设…

【动态规划】B4336 [中山市赛 2023] 永别|普及+

B4336 [中山市赛 2023] 永别 题目描述 你做了一个梦&#xff0c;梦里有一个字符串&#xff0c;这个字符串无论正着读还是倒着读都是一样的&#xff0c;例如&#xff1a; a b c b a \tt abcba abcba 就符合这个条件。 但是你醒来时不记得梦中的字符串是什么&#xff0c;只记得…

可下载旧版app屏蔽更新的app市场

软件介绍 手机用久了&#xff0c;app越来越臃肿&#xff0c;老手机卡顿成常态。这里给大家推荐个改善老手机使用体验的方法&#xff0c;还能帮我们卸载不需要的app。 手机现状 如今的app不断更新&#xff0c;看似在优化&#xff0c;实则内存占用越来越大&#xff0c;对手机性…

claude3.7高阶玩法,生成系统架构图,国内直接使用

文章目录 零、前言一、操作指南操作指导 二、提示词模板三、实战图书管理系统通过4o模型生成系统描述通过claude3.7生成系统架构图svg代码转换成图片 在线考试系统通过4o模型生成系统描述通过claude3.7生成系统架构图svg代码转换成图片 四、感受 零、前言 现在很多AI大模型可以…

河北对口计算机高考MySQL笔记(完结版)(2026高考)持续更新~~~~

MySQL 基础概念 数据&#xff08;Data&#xff09;&#xff1a;文本&#xff0c;数字&#xff0c;图片&#xff0c;视频&#xff0c;音频等多种表现形式&#xff0c;能够被计算机存储和处理。 **数据库&#xff08;Data Base—简称DB&#xff09;&#xff1a;**存储数据的仓库…