多模态大语言模型arxiv论文略读(九十八)

news2025/7/22 4:17:11

在这里插入图片描述

Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight

➡️ 论文标题:Accelerating Pre-training of Multimodal LLMs via Chain-of-Sight
➡️ 论文作者:Ziyuan Huang, Kaixiang Ji, Biao Gong, Zhiwu Qing, Qinglong Zhang, Kecheng Zheng, Jian Wang, Jingdong Chen, Ming Yang
➡️ 研究机构: Ant Group、Huazhong University of Science and Technology
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉-语言任务中展现了卓越的能力,如图像描述、视觉问答和视觉定位。然而,随着数据量的增加,模型的预训练时间显著延长,成为进一步研究和应用的主要障碍。传统的MLLMs在预训练阶段处理大量的视觉token,导致计算成本高昂,且预训练时间过长。
➡️ 研究动机:为了减少预训练时间,同时不牺牲模型性能,研究团队提出了Chain-of-Sight,一种视觉-语言桥接模块。该模块通过多尺度视觉重采样器和复合token扩展策略,显著减少了预训练阶段所需的视觉token数量,从而加速预训练过程。
➡️ 方法简介:Chain-of-Sight的核心机制是多尺度视觉重采样器,该重采样器能够生成多尺度的视觉token。通过在预训练阶段减少视觉token的数量,并在微调阶段扩展token数量,Chain-of-Sight能够在保持或提升模型性能的同时,显著加速预训练过程。具体来说,该方法在预训练阶段使用少量的视觉token,而在微调阶段通过分辨率扩展和窗口扩展策略,将token数量增加到原来的16倍。
➡️ 实验设计:研究团队在多个视觉-语言基准数据集上进行了实验,包括图像描述、视觉问答和文本识别任务。实验结果表明,Chain-of-Sight不仅能够将预训练时间减少约73%,而且在多个任务上达到了与使用全部视觉token的模型相当或更好的性能。此外,通过进一步扩展token数量,模型的性能还可以进一步提升。

UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models

➡️ 论文标题:UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models
➡️ 论文作者:Liu Qi, He Yongyi, Lian Defu, Zheng Zhi, Xu Tong, Liu Che, Chen Enhong
➡️ 研究机构: 中国科学技术大学 & 国家认知智能重点实验室
➡️ 问题背景:多模态实体链接(Multimodal Entity Linking, MEL)是一项关键任务,旨在将多模态上下文中的模糊提及链接到多模态知识库中的实体。现有的方法过于复杂,且忽视了视觉语义信息,导致在处理文本模糊性、冗余和噪声图像等问题时性能严重下降。大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的出现为解决这些问题提供了新的思路。
➡️ 研究动机:尽管LLMs在许多数据任务中表现出色,但它们在处理多模态实体链接任务时仍面临挑战,如有效融合视觉和文本上下文、缺乏领域特定知识等。为了克服这些挑战,研究团队提出了一个统一的框架UniMEL,旨在利用LLMs和MLLMs处理多模态实体链接任务。
➡️ 方法简介:UniMEL框架通过以下方式增强实体链接任务:1) 使用MLLMs处理提及的图像和上下文信息,提取更深层次的语义关系;2) 使用LLMs的总结能力生成简洁的实体描述;3) 使用嵌入模型检索和重新排序候选实体;4) 通过微调LLMs的少量参数来选择最终的实体。
➡️ 实验设计:在三个公开的多模态实体链接数据集上进行了实验,包括Richpedia、WikiMEL和Wikidiverse。实验设计了不同的模块,如LLMs和MLLMs的增强、检索增强和多选选择,以全面评估UniMEL在不同条件下的表现。实验结果表明,UniMEL在这些数据集上取得了最先进的性能。

INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model

➡️ 论文标题:INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model
➡️ 论文作者:Yiwei Ma, Zhibin Wang, Xiaoshuai Sun, Weihuang Lin, Qiang Zhou, Jiayi Ji, Rongrong Ji
➡️ 研究机构: Xiamen University (XMU)
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在各种任务中展现了卓越的能力,但其视觉编码器的二次复杂度限制了输入图像的分辨率。现有的方法通过将高分辨率图像裁剪为较小的子图像来处理这一问题,但这些方法在捕捉全局上下文和局部细节方面存在不足。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的MLLM框架——INF-LLaVA,旨在有效处理高分辨率图像,同时保持全局和局部信息的完整性。
➡️ 方法简介:INF-LLaVA引入了两个创新组件:双视角裁剪模块(Dual-perspective Cropping Module, DCM)和双视角增强模块(Dual-perspective Enhancement Module, DEM)。DCM确保每个子图像从局部和全局视角包含连续的详细信息和全面的信息。DEM通过局部和全局特征的相互增强,使模型能够有效处理高分辨率图像。
➡️ 实验设计:研究团队在多个基准数据集上进行了广泛的消融研究和实验,验证了DCM和DEM的有效性。实验结果表明,INF-LLaVA在处理高分辨率图像时不仅性能优越,而且显著优化了计算效率。

Harmonizing Visual Text Comprehension and Generation

➡️ 论文标题:Harmonizing Visual Text Comprehension and Generation
➡️ 论文作者:Zhen Zhao, Jingqun Tang, Binghong Wu, Chunhui Lin, Shu Wei, Hao Liu, Xin Tan, Zhizhong Zhang, Can Huang, Yuan Xie
➡️ 研究机构: East China Normal University, ByteDance
➡️ 问题背景:当前的多模态生成模型在视觉文本理解与生成任务中表现出色,但同时生成图像和文本时,由于视觉和语言模态之间的固有不一致性,通常会导致性能下降。现有的方法通过模态特定的数据进行监督微调,需要不同的模型实例,这限制了模型的通用性和效率。
➡️ 研究动机:为了克服多模态生成中的模态不一致性问题,并实现单一模型实例中视觉和语言生成的统一,研究团队提出了Slide-LoRA方法。该方法通过动态聚合模态特定和模态无关的LoRA专家,部分解耦多模态生成空间,从而在不显著增加参数的情况下,提升模型的多模态生成能力。
➡️ 方法简介:研究团队提出了TextHarmony,一个统一且多功能的多模态生成模型,擅长理解和生成视觉文本。TextHarmony通过集成视觉编码器、LLM和图像解码器,实现了文本和图像的同步生成。为了缓解视觉和语言模态之间的不一致性,研究团队提出了Slide-LoRA,该方法通过动态调整不同模态生成任务的参数空间,部分解耦多模态生成空间。此外,研究团队还构建了一个高质量的图像字幕数据集DetailedTextCaps-100K,以进一步提升视觉文本生成能力。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括视觉文本理解任务(如DocVQA、TabFact、TextVQA等)和视觉文本生成任务(如AnyText-benchmark-EN、MARIOEval等)。实验结果表明,TextHarmony在视觉文本理解任务上达到了与专门的文本理解模型相当的性能,在视觉文本生成任务上也表现出色。具体来说,TextHarmony在视觉文本理解任务上平均提升了2.5%,在视觉文本生成任务上平均提升了4.0%。

MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues

➡️ 论文标题:MicroEmo: Time-Sensitive Multimodal Emotion Recognition with Micro-Expression Dynamics in Video Dialogues
➡️ 论文作者:Liyun Zhang
➡️ 研究机构: Osaka University
➡️ 问题背景:现有的多模态大语言模型(MLLMs)在多模态情感识别任务中表现出色,能够整合视觉、声学和语言模态的信息来识别人类的情感状态。然而,这些模型在捕捉微表情的时间动态和话语感知的时间段的上下文依赖性方面存在不足,限制了其在多模态情感识别任务中的有效性。
➡️ 研究动机:为了提高多模态情感识别的准确性和细致度,研究团队提出了MicroEmo,一个时间敏感的MLLM,旨在关注面部微表情的时间动态和话语感知视频片段的上下文依赖性。通过引入全局-局部注意力视觉编码器和话语感知视频Q-Former,MicroEmo能够捕捉更细微和深层次的情感信息,提供更丰富和可靠的情感识别结果。
➡️ 方法简介:研究团队提出了两个关键模块:1) 全局-局部注意力视觉编码器,整合全局帧级时间戳绑定图像特征与局部面部特征的时间动态;2) 话语感知视频Q-Former,通过生成每个话语段和整个视频的视觉令牌序列来捕捉多尺度和上下文依赖性。
➡️ 实验设计:研究团队在新的Explainable Multimodal Emotion Recognition (EMER)任务上进行了初步的定性实验,该任务利用多模态和多方面的线索以开放词汇的方式预测情感。实验结果表明,MicroEmo在捕捉细微情感变化方面优于现有方法,同时保持了上下文的准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2397620.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

EXCEL--累加,获取大于某个值的第一个数

一、函数 LET(data,A1:A5,cumSum,SCAN(0,data,LAMBDA(a,b,ab)),idx,MATCH(TRUE,cumSum>C1,0),INDEX(data,idx)) 二、函数拆解 1、LET函数:LET(name1, value1, [name2, value2, ...], calculation) name1, name2...:自定义的变量名(需以字…

本地部署 DeepSeek R1(最新)【从下载、安装、使用和调用一条龙服务】

文章目录 一、安装 Ollama1.1 下载1.2 安装 二、下载 DeepSeek 模型三、使用 DeepSeek3.1 在命令行环境中使用3.2 在第三方软件中使用 一、安装 Ollama 1.1 下载 官方网址:Ollama 官网下载很慢,甚至出现了下载完显示 无法下载,需要授权 目…

win主机如何结束正在执行的任务进程并重启

最近遇到一个问题,一个java入库程序经常在运行了几个小时之后消息无法入库,由于已经没有研发人员来维护这个程序了,故此只能每隔一段时间来重启这个程序以保证一直有消息入库。 但是谁也不能保证一直有人去看这个程序,并且晚上也不…

maven中的maven-resources-plugin插件详解

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站 一、插件定位与核心功能 maven-resources-plugin是Maven构建工具的核心插件之一,主要用于处理项目中的资源文件(如…

ROS云课基础篇-01-Linux-250529

ROS云课基础篇收到了很多反馈,正面评价比例高,还有很多朋友反馈需要写更具体一点。 ROS云课基础篇极简复习-C、工具、导航、巡逻一次走完-CSDN博客 于是,有了这篇以及之后的案例,案例均已经测试过8年,但没有在博客公…

深入了解 C# 异步编程库 AsyncEx

在现代应用程序开发中,异步编程已经成为提升性能和响应能力的关键,尤其在处理网络请求、I/O 操作和其他耗时任务时,异步编程可以有效避免阻塞主线程,提升程序的响应速度和并发处理能力。C# 提供了内建的异步编程支持(通…

Vulhub靶场搭建(Ubuntu)

前言:Vulhub 是一个开源的漏洞靶场平台,全称是 Vulhub: Vulnerable Web Application Environments,主要用于学习和复现各类 Web 安全漏洞。它的核心特征是通过 Docker 环境快速搭建出带有特定漏洞的靶场系统,适合渗透测试学习者、…

C++:参数传递方法(Parameter Passing Methods)

目录 1. 值传递(Pass by Value) 2. 地址传递(Pass by Address) 3. 引用传递(Pass by Reference) 数组作为函数参数(Array as Parameter) 数组作为函数返回值 什么是函数&#xff…

大语言模型的推理能力

2025年,各种会推理的AI模型如雨后春笋般涌现,比如ChatGPT o1/o3/o4、DeepSeek r1、Gemini 2 Flash Thinking、Claude 3.7 Sonnet (Extended Thinking)。 对于工程上一些问题比如复杂的自然语言转sql,我们可能忍受模型的得到正确答案需要更多…

Redis的安装与使用

网址:Spring Data Redis 安装包:Releases tporadowski/redis GitHub 解压后 在安装目录中打开cmd 打开服务(注意:每次客户端连接都有先打开服务!!!) 按ctrlC退出服务 客户端连接…

2024年数维杯国际大学生数学建模挑战赛C题时间信号脉冲定时噪声抑制与大气时延抑制模型解题全过程论文及程序

2024年数维杯国际大学生数学建模挑战赛 C题 时间信号脉冲定时噪声抑制与大气时延抑制模型 原题再现: 脉冲星是一种快速旋转的中子星,具有连续稳定的旋转,因此被称为“宇宙灯塔”。脉冲星的空间观测在深空航天器导航和时间标准维护中发挥着至…

C# 控制台程序获取用户输入数据验证 不合规返回重新提示输入

在 C# 控制台程序中实现输入验证并循环重试&#xff0c;可以通过以下方式实现高效且用户友好的交互。以下是包含多种验证场景的完整解决方案&#xff1a; 一、通用输入验证框架 public static T GetValidInput<T>(string prompt, Func<string, (bool IsValid, T Val…

TDengine 运维——巡检工具(安装前检查)

简介 本文档旨在介绍 TDengine 安装部署前后配套的巡检工具。 相关工具的功能简介&#xff1a; 工具名称功能简介安装前检查部署前对 TDengine 安装部署的依赖要素进行安装前检查安装前预配置部署前对 TDengine 安装部署的依赖要素进行安装前预配置安装部署指定环境安装部署…

【Linux】权限chmod命令+Linux终端常用快捷键

目录 linux中权限表示形式 解析标识符 权限的数字序号 添加权限命令chmod 使用数字表示法设置权限 使用符号表示法设置权限 linux终端常用快捷键 &#x1f525;个人主页 &#x1f525; &#x1f608;所属专栏&#x1f608; 在 Linux 系统里&#xff0c;权限管理是保障系…

Java八股文智能体——Agent提示词(Prompt)

这个智能体能够为正在学习Java八股文的同学提供切实帮助&#xff1a;不仅可以帮你优化答案表述&#xff0c;还能直接解答八股文相关问题——它会以面试者的视角&#xff0c;给出贴合求职场景的专业回答。 将以下内容发送给任何一个LLM&#xff0c;他会按照你提示词的内容&…

Go语言的context

Golang context 实现原理 本篇文章是基于小徐先生的文章的修改和个人注解&#xff0c;要查看原文可以点击上述的链接查看 目前我这篇文章的go语言版本是1.24.1 context上下文 context被当作第一个参数&#xff08;官方建议&#xff09;&#xff0c;并且不断的传递下去&…

数据库原理 试卷

以下是某高校教学管理系统的毕业论文指导ER图&#xff0c;数据信息&#xff1a;一名教师指导多名学生&#xff0c;一名学生只能选择一名教师&#xff0c;试分析完成以下各题&#xff0c;如用SQL命令完成的&#xff0c;在SQL Server2008验证后把答案写在题目的下方。 图1 毕业论…

【Qt开发】对话框

目录 1&#xff0c;对话框的介绍 2&#xff0c;Qt内置对话框 2-1&#xff0c;消息对话框QMessageBox 2-2&#xff0c;颜色对话框QColorDialog 2-3&#xff0c;文件对话框QFileDialog 2-4&#xff0c;字体对话框QFontDialog 2-5&#xff0c;输入对话框QInputDialog 1&…

2025年渗透测试面试题总结-匿名[校招]攻防研究员(应用安全)(题目+回答)

安全领域各种资源&#xff0c;学习文档&#xff0c;以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具&#xff0c;欢迎关注。 目录 匿名[校招]攻防研究员(应用安全) 基础部分 1. HTTP状态码 2. HTTP请求方法及作用 3. 网络分层及协议 OW…

碰一碰发视频系统--基于H5场景开发

#碰一碰发视频# 旨在构建一个基于移动网页&#xff08;H5&#xff09;的视频“碰传”交互系统&#xff0c;提供类似华为/苹果设备 NFC 轻碰分享的便捷体验。其核心技术依赖于移动端可用的近场通信&#xff08;NFC 或 H5 相关 API&#xff09;和可靠的媒体数据传输方案。实现细节…