多模态大语言模型arxiv论文略读(103)

news2025/6/6 3:14:39

在这里插入图片描述

Are Bigger Encoders Always Better in Vision Large Models?

➡️ 论文标题:Are Bigger Encoders Always Better in Vision Large Models?
➡️ 论文作者:Bozhou Li, Hao Liang, Zimo Meng, Wentao Zhang
➡️ 研究机构: 北京大学
➡️ 问题背景:近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)在现实世界应用中展现出强大的潜力。这些模型因其卓越的多模态信息理解能力和强大的认知推理能力而迅速发展。在MLLMs中,视觉语言模型(Vision Language Models, VLMs)因其理解视觉信息的能力而尤为突出。然而,当前主流范式下的VLMs的扩展趋势尚未得到广泛研究,是否通过训练更大的模型可以实现更好的性能仍不清楚。
➡️ 研究动机:现有的研究尚未充分探讨连接视觉范式(Connected Vision Paradigm)下的VLMs的扩展规律。为了填补这一空白,研究团队通过实验探讨了不同编码器大小和大语言模型(LLMs)大小对VLMs性能的影响,旨在为未来的模型设计和优化提供有价值的见解。
➡️ 方法简介:研究团队采用LLaVA1.5模型作为研究的骨干,利用7亿和13亿参数的模型进行实验。实验数据集包括从CC12M和Laion400M中提取的100万到1000万张图像-文本对。通过这些实验,研究团队系统地评估了不同数据量和模型大小对VLMs性能的影响。
➡️ 实验设计:实验分为两个阶段:多模态预训练(Multimodal Pretraining, MM PT)和多模态指令微调(Multimodal Instruction Fine-tuning, MM IT)。在MM PT阶段,研究团队使用不同的ViT模型大小和Vicuna系列的LLM模型进行训练,通过评估损失函数的变化来分析模型性能。实验结果表明,增加数据量和使用更大的LLM骨干可以提高模型性能,但单纯增加ViT的参数规模并不一定能提升VLMs的性能。此外,高质量的数据集对模型性能的提升至关重要。

Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model

➡️ 论文标题:Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model
➡️ 论文作者:Benlin Liu, Yuhao Dong, Yiqin Wang, Zixian Ma, Yansong Tang, Luming Tang, Yongming Rao, Wei-Chiu Ma, Ranjay Krishna
➡️ 研究机构: University of Washington, Tsinghua University, Tencent, Google Deepmind, Allen Institute for AI, Cornell University
➡️ 问题背景:多模态语言模型(Multimodal Language Models, MLLMs)在现实世界的应用中,需要具备解释3D空间和理解时间动态的能力。然而,现有的方法通常依赖于专门的架构设计或特定任务的微调来实现这一点。这些方法在3D和长视频理解基准测试中的表现仅略好于仅基于文本的基线模型,表明空间-时间推理是MLLMs通向通用视觉智能的主要瓶颈。
➡️ 研究动机:为了增强MLLMs的空间-时间推理能力,研究团队提出了一种简单且无需训练的视觉提示方法——COARSE CORRESPONDENCES。该方法通过2D图像输入,无需修改架构或特定任务的微调,即可显著提升MLLMs的空间-时间推理能力。
➡️ 方法简介:COARSE CORRESPONDENCES方法包含四个步骤:(1)跟踪对应关系,(2)稀疏化帧,(3)选择粗略对应关系,(4)可视化粗略对应关系。通过这些步骤,该方法能够从视频或不同视角的图像中提取主要对象的对应关系,并通过视觉提示将这些信息传达给MLLMs。
➡️ 实验设计:研究团队在六个基准测试上进行了广泛的实验,包括空间理解(如ScanQA和OpenEQA)和时间理解(如EgoSchema)任务。实验结果表明,COARSE CORRESPONDENCES不仅能够显著提升MLLMs在这些任务上的表现,而且在使用较少输入图像的情况下,其性能甚至超过了经过专门微调的模型。此外,该方法在导航任务(如R2R)中也表现出色,进一步证明了其在增强MLLMs空间-时间推理能力方面的有效性和效率。

Piculet: Specialized Models-Guided Hallucination Decrease for MultiModal Large Language Models

➡️ 论文标题:Piculet: Specialized Models-Guided Hallucination Decrease for MultiModal Large Language Models
➡️ 论文作者:Kohou Wang, Xiang Liu, Zhaoxiang Liu, Kai Wang, Shiguo Lian
➡️ 研究机构: AI Innovation Center, China Unicom, Beijing; Unicom Digital Technology, China Unicom, Beijing
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在连接视觉和语言模态方面取得了显著进展。然而,这些模型在生成文本时经常出现幻觉(hallucinations),即生成的文本与图像内容不一致,这严重限制了MLLMs的实际应用。
➡️ 研究动机:现有的解决MLLMs幻觉问题的方法主要分为基于训练和无训练两类。基于训练的方法通常需要重新训练模型,这不仅耗时且成本高昂;而无训练的方法则主要集中在后处理阶段,利用其他大型模型来纠正MLLMs的输出,这种方法同样耗时且经济性差。为了解决这些问题,研究团队提出了一种新的无训练框架Piculet,通过利用多个专门的小型深度学习模型来增强MLLMs的输入表示,从而减少幻觉。
➡️ 方法简介:Piculet框架通过使用多个专门的小型深度学习模型(如对象检测、OCR和人脸识别模型)来提取输入图像中的事实信息,并将这些信息与原始图像和用户查询一起输入到MLLMs中。这些专门模型的输出作为外部知识,帮助MLLMs生成更准确的结果。
➡️ 实验设计:研究团队在POPE、MME和LLaVA-QA90三个数据集上进行了实验,评估了Piculet框架的有效性。实验结果表明,Piculet在减少MLLMs幻觉方面表现出色,特别是在LLaVA-QA90基准上,Piculet将Qwen-VL-Chat的准确率从6.1提高到了7.3。此外,Piculet框架仅需一次MLLMs的推理和几个小型深度学习模型的推理,具有高效、经济和易于集成的特点。

A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks

➡️ 论文标题:A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks
➡️ 论文作者:Jiaqi Wang, Hanqi Jiang, Yiheng Liu, Chong Ma, Xu Zhang, Yi Pan, Mengyuan Liu, Peiran Gu, Sichen Xia, Wenjun Li, Yutong Zhang, Zihao Wu, Zhengliang Liu, Tianyang Zhong, Bao Ge, Tuo Zhang, Ning Qiang, Xintao Hu, Xi Jiang, Xin Zhang, Wei Zhang, Dinggang Shen, Tianming Liu, Shu Zhang
➡️ 研究机构: 西北工业大学、乔治亚大学、陕西师范大学、电子科技大学、奥古斯塔大学、上海科技大学
➡️ 问题背景:随着数据量的爆炸性增长和技术的快速发展,多模态大语言模型(MLLMs)成为人工智能系统中的前沿技术。这些模型旨在无缝集成多种数据类型,包括文本、图像、视频、音频和生理序列数据,以应对现实世界应用中的复杂性,超越单模态系统的功能。
➡️ 研究动机:现有的多模态大语言模型在多种任务中表现出色,但它们在不同任务中的表现和挑战仍需深入研究。本文系统地回顾了MLLMs在多模态任务中的应用,分析了不同MLLMs的焦点,并指出了当前模型的不足,为未来的研究提供了方向。
➡️ 方法简介:研究团队通过构建一个全面的框架,从基本概念、主要架构、不同领域的性能、比较分析到未来研究的路线图,系统地回顾了MLLMs的发展。文章详细介绍了MLLMs的多模态输入编码器、特征融合机制和多模态输出解码器,以及如何通过预训练的大型语言模型(LLMs)处理多模态数据。
➡️ 实验设计:文章在视觉和音频任务中详细探讨了MLLMs的应用,包括图像理解和生成任务。实验设计了不同阶段的图像理解技术,从传统的特征提取方法到深度学习技术的应用,再到多模态图像理解和跨模态学习,以及强化学习在图像理解中的应用。通过这些实验,文章全面评估了MLLMs在不同任务中的表现和潜力。

Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs

➡️ 论文标题:Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs
➡️ 论文作者:Peng Ding, Jingyu Wu, Jun Kuang, Dan Ma, Xuezhi Cao, Xunliang Cai, Shi Chen, Jiajun Chen, Shujian Huang
➡️ 研究机构: 南京大学、浙江大学、美团、新加坡-浙江创新与人工智能联合实验室
➡️ 问题背景:多模态大语言模型(MLLMs)在多种视觉-语言理解和生成任务中表现出色。然而,这些模型有时会生成与给定图像不一致的内容,这种现象被称为“幻觉”(hallucination)。现有的研究主要集中在使用标准的、未受干扰的基准数据集来评估幻觉,忽略了现实世界中输入图像经常遇到的各种干扰(如裁剪、模糊等),这些干扰对于全面评估MLLMs的幻觉至关重要。
➡️ 研究动机:为了填补这一空白,研究团队提出了Hallu-PI,这是第一个专门用于评估多模态大语言模型在受干扰输入下的幻觉表现的基准数据集。Hallu-PI旨在通过引入多种图像干扰场景,全面评估MLLMs在处理受干扰输入时的幻觉问题,揭示现有模型的局限性,并为未来的改进提供方向。
➡️ 方法简介:研究团队构建了Hallu-PI数据集,该数据集包含7种干扰场景,共1,260张受干扰图像,涉及11种不同的对象类别。每个图像都配有详细的注释,包括存在性、属性和关系等细粒度的幻觉类型。此外,数据集还包含了一系列问题,适用于判别性和生成性任务。
➡️ 实验设计:研究团队在12个主流的MLLMs上进行了广泛的实验,包括GPT-4V和Gemini-Pro Vision等模型。实验设计了多种干扰类型(如噪声、模糊、天气、数字、图像拼接、图像裁剪和提示误导),以及不同类型的评估任务(如判别性和生成性任务),以全面评估模型在受干扰输入下的幻觉表现。实验结果表明,这些模型在处理受干扰输入时表现出显著的幻觉问题,尤其是在图像拼接、图像裁剪和提示误导等特定类型的干扰下。为了缓解这些问题,研究团队还设计了两个基线方法:Perturbed-Reminder和Perturbed-ICL,实验结果表明这些方法在一定程度上有效减少了模型的幻觉。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2398303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

汇编语言基础: 搭建实验环境

环境配置 1.Visual Studio 创建空项目 创建成功 2.平台框架改为为WIN32 右键点击项目 点击属性 点击配置管理器 平台改为Win32(本文使用32位的汇编) 3.生成采用MASM 在项目属性里点击"生成依赖项"的"生成自定义" 勾选 masm 4.创建第一个汇编程序 右…

基于springboot的益智游戏系统的设计与实现

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了六年的毕业设计程序开发,开发过上千套毕业设计程序,没有什么华丽的语言&#xff0…

第十二节:第四部分:集合框架:List系列集合:LinkedList集合的底层原理、特有方法、栈、队列

LinkedList集合的底层原理 LinkedList集合的应用场景之一 代码:掌握LinkedList集合的使用 package com.itheima.day19_Collection_List;import java.util.LinkedList; import java.util.List;//掌握LinkedList集合的使用。 public class ListTest3 {public static …

多模态大语言模型arxiv论文略读(104)

Talk Less, Interact Better: Evaluating In-context Conversational Adaptation in Multimodal LLMs ➡️ 论文标题:Talk Less, Interact Better: Evaluating In-context Conversational Adaptation in Multimodal LLMs ➡️ 论文作者:Yilun Hua, Yoav…

【C++高级主题】多重继承下的类作用域

目录 一、类作用域与名字查找规则:理解二义性的根源 1.1 类作用域的基本概念 1.2 单继承的名字查找流程 1.3 多重继承的名字查找特殊性 1.4 关键规则:“最近” 作用域优先,但多重继承无 “最近” 二、多重继承二义性的典型类型与代码示…

基于Android的一周穿搭APP的设计与实现 _springboot+vue

开发语言:Java框架:springboot AndroidJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7数据库工具:Navicat12开发软件:eclipse/myeclipse/ideaMaven包:Maven3.6 系统展示 APP登录 A…

机器学习——使用多个决策树

使用单一决策树的弱点之一是决策树对数据中的微小变化非常敏感,一个使算法不那么敏感或更健壮的解决方案,不是建立一个决策树,而是要建立大量的决策树,我们称之为树合奏。 在这个例子中,我们一直在使用最好的特性来分…

C# 中的对话框与导航:构建流畅用户交互的完整指南

在现代应用程序开发中,良好的用户交互体验是成功的关键因素之一。作为.NET开发者,熟练掌握C#中的对话框与导航技术,能够显著提升应用程序的易用性和专业性。本文将全面探讨Windows Forms、WPF、ASP.NET Core和MAUI等平台下的对话框与导航实现…

DeepSeek - 尝试一下GitHub Models中的DeepSeek

1.简单介绍 当前DeepSeek使用的人很多,各大AI平台中也快速引入了DeekSeek,比如Azure AI Foundary(以前名字是Azure AI Studio)中的Model Catalog, HuggingFace, GitHub Models等。同时也出现了一些支持DeepSeek的.NET类库。微软的Semantic Kernel也支持…

【判断酒酒花数】2022-3-31

缘由对超长正整数的处理&#xff1f; - C语言论坛 - 编程论坛 void 判断酒酒花数(_int64 n) {//缘由https://bbs.bccn.net/thread-508634-1-1.html_int64 t n; int h 0, j 0;//while (j < 3)h t % 10, t / 10, j;//整数的个位十位百位之和是其前缀while (t > 0)h t…

【OCCT+ImGUI系列】011-Poly-Poly_Triangle三角形面片

Poly_Triangle 是什么&#xff1f; Poly_Triangle 是一个非常轻量的类&#xff0c;用于表示一个三角网格中的单个三角形面片。它是构成 Poly_Triangulation&#xff08;三角网格对象&#xff09;的基本单位之一。之后会写关于碰撞检测的相关文章&#xff0c;三角面片是非常重要…

【机器学习基础】机器学习入门核心算法:Mini-Batch K-Means算法

机器学习入门核心算法&#xff1a;Mini-Batch K-Means算法 一、算法逻辑工作流程与传统K-Means对比 二、算法原理与数学推导1. 目标函数2. Mini-Batch更新规则3. 学习率衰减机制4. 伪代码 三、模型评估1. 内部评估指标2. 收敛性判断3. 超参数调优 四、应用案例1. 图像处理 - 颜…

机器学习实战36-基于遗传算法的水泵调度优化项目研究与代码实现

大家好,我是微学AI,今天给大家介绍一下机器学习实战36-基于遗传算法的水泵调度优化项目研究与代码实现。 文章目录 一、项目介绍二、项目背景三、数学原理与算法分析动态规划模型遗传算法设计编码方案适应度函数约束处理算法参数能量消耗模型一泵房能耗二泵房能耗效率计算模…

【仿muduo库实现并发服务器】使用正则表达式提取HTTP元素

使用正则表达式提取HTTP元素 1.正则表达式2.正则库的使用3.使用正则表达式提取HTTP请求行 1.正则表达式 正则表达式它其实是描述了一种字符串匹配的模式&#xff0c;它可以用来在一个字符串中检测一个特定格式的字串&#xff0c;以及可以将符合特定规则的字串进行替换或者提取…

核心机制:流量控制

搭配滑动窗口使用的 窗口大小 窗口越大,传输速度就越快,但是也不能无限大,太大了,对于可靠性会有影响 比如发生方以非常快的速度,发送,接收方的处理速度跟不上,也就会导致有效数据被接受方丢弃(又得重传) 流量控制,就是根据接收方的处理能力(如何衡量?),干预到发送方的发送…

极智项目 | 基于PyQT实现的YOLOv12行人目标检测软件设计

基于YOLOv12的专业级行人目标检测软件应用 开发者: 极智视界 软件下载&#xff1a;链接 &#x1f31f; 项目特色 专业检测: 基于最新YOLOv12模型&#xff0c;专门针对行人检测优化现代界面: 采用PyQt5构建的美观、直观的图形用户界面高性能: 支持GPU加速&#xff0c;检测速…

vscode不满足先决条件问题的解决——vscode的老版本安装与禁止更新(附安装包)

目录 起因 vscode更新设置的关闭 安装包 结语 起因 由于主包用的系统是centos的&#xff0c;且版本有点老了&#xff0c;再加上vscode现在不支持老版本的&#xff0c;这对主包来说更是雪上加霜啊 但是主包看了网上很多教程&#xff0c;眼花缭乱&#xff0c;好多配置要改&…

RustDesk 搭建自建服务器并设置服务自启动

目录 0. 介绍 1. 事前准备 1.1 有公网 ip 的云服务器一台 1.2 服务端部署包 1.3 客户端安装包 2. 部署 2.1 服务器环境准备 2.2 上传服务端部署包 2.3 运行 pm2 3. 客户端使用 3.1 安装 3.2 配置 3.2.1 解锁网络设置 3.2.2 ID / 中级服务器 3.3 启动效果 > …

【数据库】数据库恢复技术

数据库恢复技术 实现恢复的核心是使用冗余&#xff0c;也就是根据冗余数据重建不正确数据。 事务 事务是一个数据库操作序列&#xff0c;是一个不可分割的工作单位&#xff0c;是恢复和并发的基本单位。 在关系数据库中&#xff0c;一个事务是一条或多条SQL语句&#xff0c…

力扣HOT100之动态规划:32. 最长有效括号

这道题放在动态规划里属实是有点难为人了&#xff0c;感觉用动态规划来做反而更难理解了&#xff0c;这道题用索引栈来做相当好理解&#xff0c;这里先讲下索引栈的思路。 索引栈做法 我们定义一个存放整数的栈&#xff0c;定义一个全局变量result来记录最长有效子串的长度&a…