多模态大语言模型arxiv论文略读(八十一)

news2025/5/19 10:08:34

在这里插入图片描述

What is the Visual Cognition Gap between Humans and Multimodal LLMs?

➡️ 论文标题:What is the Visual Cognition Gap between Humans and Multimodal LLMs?
➡️ 论文作者:Xu Cao, Bolin Lai, Wenqian Ye, Yunsheng Ma, Joerg Heintz, Jintai Chen, Jianguo Cao, James M. Rehg
➡️ 研究机构: University of Illinois Urbana-Champaign、Georgia Institute of Technology、University of Virginia、Purdue University、Shenzhen Children’s Hospital
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在语言引导的感知任务中,如识别、分割和目标检测,展现了巨大的潜力。然而,它们在解决需要高级推理的视觉认知问题上的有效性尚未得到充分验证。抽象视觉推理(Abstract Visual Reasoning, AVR)是其中的一个挑战,它涉及识别图像集中的模式关系并推断后续模式,这一技能在儿童早期神经发育阶段尤为重要。
➡️ 研究动机:尽管MLLMs在某些认知测试中表现出色,但它们在需要高级归纳推理的视觉问题上的表现仍然不足,尤其是在RAVEN IQ测试等任务中。为了评估MLLMs在AVR任务上的表现,并与人类智能进行比较,研究团队提出了一个新的数据集MaRs-VQA和一个新的基准VCog-Bench,旨在揭示MLLMs与人类智能之间的差距,并为未来的研究提供方向。
➡️ 方法简介:研究团队构建了一个新的AVR数据集MaRs-VQA,包含1,440个由心理学家设计的图像实例,这是目前最大的AVR评估数据集。此外,他们提出了VCog-Bench,这是一个综合的视觉认知基准,用于评估15个现有MLLMs在零样本设置下的AVR性能。研究团队还设计了链式思维(Chain-of-Thought, CoT)策略,以增强MLLMs在AVR任务中的零样本学习能力。
➡️ 实验设计:研究团队在三个数据集上进行了实验,包括RAVEN、CVR和MaRs-VQA。实验设计了不同的任务设置,如不同的选项数量和问题类型,以全面评估MLLMs在AVR任务中的表现。实验结果表明,即使是最强大的MLLMs在AVR任务上的表现也远不如人类,尤其是在处理复杂的抽象推理问题时。此外,研究还揭示了MLLMs在AVR任务和其他一般VQA问题之间的性能不匹配,为未来的模型改进提供了有价值的见解。

CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation

➡️ 论文标题:CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation
➡️ 论文作者:Wei Chen, Lin Li, Yongqi Yang, Bin Wen, Fan Yang, Tingting Gao, Yu Wu, Long Chen
➡️ 研究机构: The Hong Kong University of Science and Technology (HKUST)、Wuhan University、Kuaishou Technology
➡️ 问题背景:交错图像-文本生成(Interleaved Image-Text Generation)是一项新兴的多模态任务,旨在根据查询生成交错的视觉和文本内容序列。尽管多模态大语言模型(MLLMs)在跨模态生成方面取得了显著进展,但在生成具有叙事连贯性和实体及风格一致性的交错图像-文本序列方面仍面临挑战。主要原因在于大多数模型是基于单个图像-文本对进行训练的,这限制了它们生成连贯和上下文集成的多模态内容的能力。
➡️ 研究动机:现有的多模态数据集在叙事连贯性、实体和风格一致性以及图像和文本之间的语义对齐方面存在不足。为了克服这些限制,研究团队构建了CoMM,一个高质量的连贯交错图像-文本多模态数据集,旨在提高生成内容的连贯性、一致性和对齐性。
➡️ 方法简介:CoMM数据集通过从特定网站(如WikiHow)收集高质量的交错图像-文本内容,初步确保数据集的连贯性和一致性。此外,研究团队设计了多视角过滤策略,包括文本序列过滤、图像序列过滤和图像-文本对齐过滤,利用先进的预训练模型(如CLIP和Llama3)来进一步提高数据集的质量。
➡️ 实验设计:研究团队设计了四个评估指标,分别评估生成的图像-文本序列的发展性、完整性、图像-文本对齐性和一致性。此外,通过在多个下游任务上进行少量样本实验,展示了CoMM在提高MLLMs上下文学习能力方面的有效性。研究还引入了四个新的任务,以全面评估MLLMs的多模态理解和生成能力,并提出了一个综合评估框架。

FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models

➡️ 论文标题:FreeMotion: MoCap-Free Human Motion Synthesis with Multimodal Large Language Models
➡️ 论文作者:Zhikai Zhang, Yitang Li, Haofeng Huang, Mingxian Lin, Li Yi
➡️ 研究机构: Tsinghua University、Shanghai AI Laboratory、Shanghai Qi Zhi Institute
➡️ 问题背景:人类动作合成是计算机动画中的一个基本任务。尽管利用深度学习和动作捕捉数据在该领域取得了显著进展,但现有方法通常局限于特定的动作类别、环境和风格,缺乏对新环境和未见过的人类行为的泛化能力。此外,大规模高质量动作数据的收集难度和成本也是一个重要限制。
➡️ 研究动机:为了克服现有方法的局限性,研究团队首次探索了利用多模态大语言模型(MLLMs)在没有任何动作数据的情况下,通过自然语言指令控制的开放集人类动作合成。这一方法旨在利用MLLMs的广泛世界知识和推理能力,实现对新环境和任务的动态适应。
➡️ 方法简介:研究团队提出了一种名为FreeMotion的框架,该框架分为两个阶段:1)利用MLLMs作为关键帧设计者和动画师,生成一系列关键帧;2)通过插值和环境感知的动作跟踪,填补关键帧之间的空白。具体来说,第一阶段使用两个专门的GPT-4V代理,一个负责生成关键帧描述,另一个负责根据描述调整人体模型的姿势。第二阶段则通过插值和动作跟踪,将关键帧序列转换为流畅的动作片段。
➡️ 实验设计:研究团队在多种下游任务上评估了该方法,包括动作合成、风格迁移、人-场景交互和踏石任务。实验结果表明,该方法在没有动作数据的情况下,能够生成高质量的动作,展示了其在开放集动作合成中的潜力。

Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags

➡️ 论文标题:Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags
➡️ 论文作者:Daiqing Qi, Handong Zhao, Zijun Wei, Sheng Li
➡️ 研究机构: University of Virginia、Adobe Research、Adobe Inc.
➡️ 问题背景:尽管多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉和语言指令的通用能力方面取得了显著进展,但在提供精确和详细的视觉指令响应时,仍面临关键问题,如无法识别新对象或实体、生成不存在的对象以及忽视对象的属性细节。
➡️ 研究动机:现有的解决方案,如增加数据量和使用更大的基础模型,虽然有效,但成本高昂。研究团队旨在通过引入检索增强的标签信息,改进多模态连接器的映射能力,从而提高模型对新对象和细节的识别能力。
➡️ 方法简介:研究团队提出了一种基于检索增强的标签信息(Tag-grounded visual instruction tUNing with retrieval Augmentation, TUNA)的方法,通过从大规模外部数据存储中检索相关标签,增强模型对新对象和细节的识别能力。TUNA通过图像感知的标签编码器和自适应权重调整器,将标签信息与输入图像结合,生成更准确的响应。
➡️ 实验设计:研究团队在12个基准数据集上进行了实验,包括视觉问答(VQA)和多模态基准测试。实验结果表明,TUNA在多个基准测试中显著优于现有的多模态大语言模型,特别是在识别新对象和实体方面表现出色。

Exploring the Potential of Multimodal LLM with Knowledge-Intensive Multimodal ASR

➡️ 论文标题:Exploring the Potential of Multimodal LLM with Knowledge-Intensive Multimodal ASR
➡️ 论文作者:Minghan Wang, Yuxia Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari
➡️ 研究机构: Monash University、MBZUAI
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在整合多种模态信息方面取得了显著进展,但在教育和科学领域的实际应用中仍面临挑战。特别是在知识密集型的多模态自动语音识别(ASR)任务中,如科学会议视频的转录,不仅需要准确转录口语内容,还需要理解和整合视觉信息。传统的评估指标如词错误率(WER)在评估技术术语的准确性方面存在不足,导致性能评估偏差。
➡️ 研究动机:为了应对这些挑战,研究团队提出了多模态科学ASR(MS-ASR)任务,专注于利用幻灯片中的视觉信息来提高技术术语的转录准确性。此外,研究团队还提出了一种新的评估指标——严重性感知WER(SWER),以更准确地反映ASR系统的性能。
➡️ 方法简介:研究团队提出了一种零样本推理框架——科学视觉增强ASR(SciVASR),该框架利用MLLMs来提取视觉信息并进行转录后编辑。通过在ACL 60/60数据集上进行实验,研究团队评估了不同模型在MS-ASR任务中的表现。
➡️ 实验设计:实验设计了四种设置:仅ASR、仅文本后编辑(Text-PE)、视觉增强后编辑(Vision-PE)和端到端视觉后编辑(E2E-Vision-PE)。评估指标包括WER、术语召回率(Term-Recall)和人类评估。实验结果表明,视觉信息的引入显著提高了转录质量,尤其是在术语召回率方面。GPT-4o在所有设置中表现最佳,特别是在视觉增强后编辑中,SWER相比仅ASR基线提高了45%。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2379199.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

3.4/Q2,Charls最新文章解读

文章题目:Associations between reversible and potentially reversible cognitive frailty and falls in community-dwelling older adults in China: a longitudinal study DOI:10.1186/s12877-025-05872-2 中文标题:中国社区老年人可逆性和…

通过觅思文档项目实现Obsidian文章浏览器在线访问

觅思文档项目开源地址 觅思文档项目开源地址:https://gitee.com/zmister/MrDoc 觅思文档部署步骤概览 服务器拉取代码: git clone https://gitee.com/zmister/mrdoc-install.git && cd mrdoc-install && chmod x docker-install.sh &a…

5月18总结

一.算法题总结 1. 解题思路:对于这个题,我最开始想到就是二分,但是头痛的是有三个解,如果我在-100到100之间二分,那么只能得出一个解,然后我就想了一下,这个要求精度,那么0.01这么小…

Linux Bash | Capture Output / Recall

注:本文为 “Linux Bash | Capture Output / Recall” 相关文章合辑。 英文引文,机翻未校。 中文引文,略作重排。 Automatically Capture Output of the Last Command Into a Variable Using Bash 使用 Bash自动将最后一个命令的输出捕获到…

2025/5/18

继续研究一下大佬的RAG项目。开始我的碎碎念。 RAG可以分成两部分:一个是问答,一个是数据处理。 问答是人提问,然后查数据库,把查的东西用大模型组织成人话,回答人的提问。 数据处理是把当下知识库里的东西&#xf…

基于Quicker构建从截图到公网图像链接获取的自动化流程

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除! 文章目录 前言预备内容转webp程序PicGo设置Quicker设置视频演示总结互动致谢参考 前言 在自建博…

LeetCode算 法 实 战 - - - 双 指 针 与 移 除 元 素、快 慢 指 针 与 删 除 有 序 数 组 中 的 重 复 项

LeetCode算 法 实 战 - - - 双 指 针 与 移 除 元 素、快 慢 指 针 与 删 除 有 序 数 组 中 的 重 复 项 第 一 题 - - - 移 除 元 素方 法 一 - - - 双 重 循 环方 法 二 - - - 双 指 针方 法 三 - - - 相 向 双 指 针(面 对 面 移 动) 第 二 题 - - -…

uniapp自定义日历计划写法(vue2)

文章目录 uniapp自定义日历计划写法(vue2)1、效果2、实现源码前言:我们有时候需要实现的日历找不到相应的插件的时候,往往需要手动去写一个日历,以下就是我遇到这样的问题时,手搓出来的一个解决方案,希望可以帮助到更多的人。创作不易,请多多支持uniapp自定义日历计划写…

Java IO框架

I/O框架 流 流的分类: 按方向: 输入流:将存储设备的内容读入到内存中 输出流:将内存的内容写入到存储设备中 按单位: 字节流:以字节为单位,可以读取所有数据 字符流:以字符为单…

数据库2——查询

查询 学习内容学习感受 学习内容 一、实验目的与要求: 1、掌握SQL单表及多表之间的查询 2、掌握统计及分组函数 二、实验内容: 1.简单查询 ① 从fruits表中检索s_id为100的供货商所供货的水果名和价格 源码: SELECT f_name, f_price FROM…

Android 性能优化入门(一)—— 数据结构优化

1、概述 一款 app 除了要有令人惊叹的功能和令人发指交互之外,在性能上也应该追求丝滑的要求,这样才能更好地提高用户体验: 优化目的性能指标优化的方向更快流畅性启动速度页面显示速度(显示和切换)响应速度更稳定稳定性避免出现 应用崩溃&…

数据库中的锁机制

目录 数据库中的锁机制:原理、分类与实际案例详解 一、数据库锁的核心作用与基本概念 1.1 为什么需要数据库锁? 1.2 锁的分类 二、锁机制的实现与典型场景 2.1 共享锁(Shared Lock) 工作原理 适用场景 代码示例(MySQL) 案例分析 2.2 排他锁(Exclusive Lock) …

【网络入侵检测】基于Suricata源码分析运行模式(Runmode)

【作者主页】只道当时是寻常 【专栏介绍】Suricata入侵检测。专注网络、主机安全,欢迎关注与评论。 1. 概要 👋 在 Suricata 中抽象出线程、线程模块和队列三个概念:线程类似进程,可多线程并行执行操作;监听、解码、检…

Linux常用命令(十四)

目录 vi编辑器命令 1-编辑模式 1)准备一个txt文件并且进入vi 2)按i进入编辑模式 3)按o进入编辑模式 4)按a进入编辑模式 ​ 2-底行模式 1)退出vim 2)撤销上次操作 3)设置行号底行模式 4&#xff…

规则联动引擎GoRules初探

背景说明 嵌入式设备随着物联网在生活和生产中不断渗透而渐渐多起来,数据的采集、处理、分析在设备侧的自定义配置越来越重要。一个可通过图形化配置的数据处理过程,对于加速嵌入式设备的功能开发愈发重要。作为一个嵌入式软件从业者,笔者一…

基于OpenCV中的图像拼接方法详解

文章目录 引言一、图像拼接的基本流程二、代码实现详解1. 准备工作2. 特征检测与描述detectAndDescribe 函数详解(1)函数功能(2)代码解析(3)为什么需要这个函数?(4)输出数…

AI大模型学习二十六、使用 Dify + awesome-digital-human-live2d + ollama + ChatTTS打造数字人

一、说明 数字人(Digital Human) 是指通过人工智能(AI)、计算机图形学、语音合成、动作捕捉等技术创建的虚拟人物。它们具备高度拟人化的外观、语言、表情和动作,能够与人类进行交互,甚至承担特定社会角色。…

HTML-3.2 表格的跨行跨列(课表制作实例)

本系列可作为前端学习系列的笔记,代码的运行环境是在HBuilder中,小编会将代码复制下来,大家复制下来就可以练习了,方便大家学习。 系列文章目录 HTML-1.1 文本字体样式-字体设置、分割线、段落标签、段内回车以及特殊符号 HTML…

Spring Cloud Sentinel 快速入门与生产实践指南

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言:流量洪峰下的微服务守卫战 🛡️一、Sentinel 核心架构解析1.1 Sentinel 整体架构1.2 核心处理流程 二、快速入门实战2.1 环境搭建全流程…

Android平台GB28181设备接入与功能支持详解

GB28181协议作为中国国家标准,广泛应用于安防、智慧城市和交通监控等领域。大牛直播SDK提供了全面支持GB28181设备接入的技术方案,能够有效帮助开发者实现设备的快速接入与管理。在本文中,我们将深入介绍大牛直播SDK在Android平台上对于GB281…