多模态大语言模型arxiv论文略读(四)

news2025/7/10 11:11:21

请添加图片描述

A Survey on Multimodal Large Language Models

➡️ 论文标题:A Survey on Multimodal Large Language Models
➡️ 论文作者:Shukang Yin, Chaoyou Fu, Sirui Zhao, Ke Li, Xing Sun, Tong Xu, Enhong Chen
➡️ 研究机构: 中国科学技术大学、腾讯优图实验室
➡️ 问题背景:近年来,多模态大语言模型(Multimodal Large Language Models, MLLMs)以其强大的能力,如基于图像编写故事和无需OCR的数学推理,成为研究热点。这些模型利用大规模语言模型(LLMs)作为“大脑”来执行多模态任务,展示了通向通用人工智能的潜在路径。自GPT-4发布以来,MLLMs的研究热潮不断,学术界和工业界都在努力开发能够与GPT-4V竞争甚至超越的MLLMs。
➡️ 研究动机:本文旨在追踪和总结MLLMs的最新进展,为研究人员提供该领域的基本概念、主要方法和当前进展的概览。文章不仅关注视觉和语言模态,还涵盖了涉及视频和音频模态的工作。此外,文章还开放了一个GitHub页面,实时更新最新的研究进展。
➡️ 方法简介:文章首先介绍了MLLMs的基本构成,包括架构、训练策略和数据、以及评估方法。随后,文章深入讨论了MLLMs的几个重要话题,如如何进一步改进或扩展MLLMs、如何缓解多模态幻觉问题等。文章还介绍了三个关键技术:多模态上下文学习(M-ICL)、多模态链式思维(M-CoT)和基于LLM的视觉推理(LAVR)。
➡️ 实验设计:文章没有具体描述实验设计,而是通过综述的形式,总结了MLLMs的架构、训练策略、数据集选择、评估方法等方面的内容。文章还讨论了现有的挑战,并指出了未来的研究方向。

Kosmos-2: Grounding Multimodal Large Language Models to the World

➡️ 论文标题:Kosmos-2: Grounding Multimodal Large Language Models to the World
➡️ 论文作者:Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei
➡️ 研究机构: Microsoft Research
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)已经在多种任务中展现出强大的能力,包括语言、视觉和视觉-语言任务。然而,这些模型在处理复杂多模态任务时的能力仍有待提升,特别是在将文本描述与视觉世界中的对象进行精确关联(grounding)方面。
➡️ 研究动机:为了增强多模态大语言模型在视觉-语言任务中的表现,特别是提高模型在理解对象描述(如边界框)和将文本与视觉世界关联方面的能力,研究团队开发了KOSMOS-2。KOSMOS-2不仅继承了KOSMOS-1的多模态感知能力,还引入了新的grounding能力,使模型能够更准确地理解和响应视觉输入。
➡️ 方法简介:研究团队通过构建大规模的grounded image-text对数据集(GRIT),来训练KOSMOS-2。GRIT数据集基于LAION-2B和COYO-700M的子集构建,通过预训练的检测器和grounding模型,将文本中的名词短语和指代表达与图像中的对象区域关联起来。KOSMOS-2采用Transformer架构,通过next-word预测任务进行训练,能够处理文本、图像和grounded image-text对。
➡️ 实验设计:KOSMOS-2在多个任务上进行了评估,包括多模态grounding(如短语grounding和指代表达理解)、多模态指代(如指代表达生成)、感知-语言任务(如图像描述和视觉问答)以及语言任务(如语言理解和生成)。实验结果表明,KOSMOS-2在grounding任务上表现出色,特别是在短语grounding和指代表达理解任务上,显著优于现有的零样本模型。

Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic

➡️ 论文标题:Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic
➡️ 论文作者:Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, Rui Zhao
➡️ 研究机构: SenseTime Research, SKLSDE, Beihang University, SEIEE, Qing Yuan Research Institute, Shanghai Jiao Tong University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理图像内容时,虽然能够感知图像,但无法与用户就图像中的具体位置进行对话。这种局限性阻碍了MLLMs在日常交流中的应用,例如在混合现实(XR)头戴设备、视觉机器人交互和在线购物等场景中,用户需要指示图像中的特定区域,而模型需要准确地理解并回应这些指示。
➡️ 研究动机:为了填补这一空白,研究团队提出了Shikra,一个能够处理空间坐标输入和输出的多模态大语言模型。Shikra的设计旨在实现参照对话(Referential Dialogue, RD),即模型能够理解用户对图像中特定区域的指示,并在回应时指明这些区域。这一能力不仅扩展了MLLMs的应用范围,还为视觉-语言任务(如视觉问答VQA、图像描述和位置相关任务REC、PointQA)提供了新的解决方案。
➡️ 方法简介:Shikra的架构包括一个视觉编码器、一个对齐层和一个大语言模型(LLM)。该模型通过自然语言形式处理所有输入和输出的坐标,无需额外的词汇表、位置编码器、预/后检测模块或外部插件模型。研究团队通过构建和利用高质量的参照对话数据集(如Flickr30K Entities)来训练Shikra,使其能够灵活地处理位置信息。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉问答(VQA)、图像描述和参照表达理解(REC)等任务。实验设计了不同的任务形式,如Spotting Captioning,要求模型描述图像并指出提到的对象或区域。此外,研究团队还通过GPT-4生成了高质量的参照对话数据,以增强模型在处理位置信息时的性能。实验结果表明,Shikra在处理位置信息时表现出色,不仅在传统的视觉-语言任务中取得了良好的成绩,还在未见过的设置中展现了强大的应用潜力。

mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding

➡️ 论文标题:mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding
➡️ 论文作者:Jiabo Ye, Anwen Hu, Haiyang Xu, Qinghao Ye, Ming Yan, Yuhao Dan, Chenlin Zhao, Guohai Xu, Chenliang Li, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang
➡️ 研究机构: DAMO Academy, Alibaba Group
➡️ 问题背景:现有的多模态大语言模型(MLLMs)在无需特定训练的情况下,已经展示了在浅层OCR-free文本识别任务中的潜力,但这些模型在处理复杂文档理解任务时,如图表、文档和网页中的复杂文本和对象关系,仍面临挑战。
➡️ 研究动机:为了克服现有MLLMs在复杂文档理解任务中的局限性,研究团队提出了mPLUG-DocOwl,通过统一的指令调优策略,增强了模型在文档理解任务中的表现,同时保持了通用的单模态和多模态能力。
➡️ 方法简介:mPLUG-DocOwl基于mPLUG-Owl,通过构建一个包含广泛视觉-文本理解任务的指令调优数据集,以及一个OCR-free文档指令理解评估集LLMDoc,来评估模型的指令理解和文档理解能力。在训练过程中,视觉编码器和语言模型保持冻结,仅对视觉抽象器和语言模型的低秩适应(LoRA)进行微调。
➡️ 实验设计:实验在多个公开数据集上进行,包括文档理解、图表理解、自然图像和网页理解等任务。实验设计了不同类型的指令,如视觉问题回答、信息提取、自然语言推理和图像描述,以全面评估模型在不同任务中的表现。实验结果表明,mPLUG-DocOwl在OCR-free文档理解任务中超越了现有方法,包括多个标准基准和LLMDoc评估集。

ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning

➡️ 论文标题:ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning
➡️ 论文作者:Liang Zhao, En Yu, Zheng Ge, Jinrong Yang, Haoran Wei, Hongyu Zhou, Jianjian Sun, Yuang Peng, Runpei Dong, Chunrui Han, Xiangyu Zhang
➡️ 研究机构: MEGVII Technology, Huazhong University of Science and Technology, Tsinghua University, Xian Jiaotong University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在人机交互方面展现了巨大的潜力,但现有的端到端MLLMs仅允许用户通过语言指令与其交互,这限制了交互的准确性和效率。特别是在处理复杂场景时,仅使用语言难以准确描述用户需求。
➡️ 研究动机:为了克服现有MLLMs在交互形式上的局限性,研究团队提出了一种新的方法,通过引入精确引用指令(Precise Referring Instructions),利用点和框等引用提示来指代特定区域,使MLLMs能够更精细地与用户交互。这种方法不仅提高了交互的灵活性和用户友好性,还增强了模型在特定区域任务中的表现。
➡️ 方法简介:研究团队提出了ChatSpot,一个统一的端到端多模态大语言模型,支持多种交互形式,包括鼠标点击、拖放和绘制框。ChatSpot通过设计一个简单但有效的精确引用指令调优方法,构建了一个高质量的多粒度视觉-语言指令跟随数据集(MGVLID),并设计了一系列评估任务来测试模型的有效性。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉-语言任务和视觉任务。实验设计了不同类型的指令(如图像级指令和区域级指令),以及不同的评估指标,以全面评估ChatSpot在区域识别、零样本学习和多轮对话等方面的能力。实验结果表明,ChatSpot在多个任务上表现优异,特别是在区域分类和光学字符识别任务中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2331328.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python三大库之---pandas(二)

python三大库之—pandas(二) 文章目录 python三大库之---pandas(二)六,函数6.1、常用的统计学函数6.2重置索引6.3 遍历6.3.1DataFrame 遍历6.3.2 itertuples()6.3.3 使用属性遍历 6.4 排序6.4.1 sort_index6.4.2 sort_…

php7.4.3连接MSsql server方法

需要下载安装Microsoft Drivers for PHP for SQL Server驱动, https://download.csdn.net/download/tjsoft/90568178 实操Win2008IISphp7.4.3连接SqlServer2008数据库所有安装包资源-CSDN文库 适用于 SQL Server 的 PHP 的 Microsoft 驱动程序支持与 SQL Server …

macOS设置定时播放眼保健操

文章目录 1. ✅方法一:直接基于日历2. 方法二:基于脚本2.1 音乐文件获取(ncm转mp3)2.2 创建播放音乐任务2.3 脚本实现定时播放 1. ✅方法一:直接基于日历 左侧新建一个日历,不然会和其他日历混淆,看起来会有点乱 然后…

记录学习的第二十三天

老样子,每日一题开胃。 我一开始还想着暴力解一下试试呢,结果不太行😂 接着两道动态规划。 这道题我本来是想用最长递增子序列来做的,不过实在是太麻烦了,实在做不下去了。 然后看了题解,发现可以倒着数。 …

SpringBoot整合sa-token,Redis:解决重启项目丢失登录态问题

SpringBoot整合sa-token,Redis:解决重启项目丢失登录态问题 🔥1. 痛点直击:为什么登录状态会消失?2.实现方案2.1.导入依赖2.2.新增yml配置文件 3.效果图4.结语 😀大家好!我是向阳🌞&…

哈希表(开散列)的实现

目录 引入 开散列的底层实现 哈希表的定义 哈希表的扩容 哈希表的插入 哈希表查找 哈希表的删除 引入 接上一篇,我们使用了闭散列的方法解决了哈希冲突,此篇文章将会使用开散列的方式解决哈希冲突,后面对unordered_set和unordered_map的…

[蓝桥杯] 挖矿(CC++双语版)

题目链接 P10904 [蓝桥杯 2024 省 C] 挖矿 - 洛谷 题目理解 我们可以将这道题中矿洞的位置理解成为一个坐标轴,以题目样例绘出坐标轴: 样例: 输入的5为矿洞数量,4为可走的步数。第二行输入是5个矿洞的坐标。输出结果为在要求步数…

远程监控系统项目里练习

1、项目目标 设备端: (1)基于stm32mp157开发板,裁剪linux5.10.10,完成ov5640摄像头移植; (2)完成用户层程序,完成对摄像头的控制及与云端服务的数据交互。 云端&…

安装并配置Maven

如图所示&#xff0c;解压安装包&#xff0c;配置环境变量&#xff0c;在bin目录那个界面新建文件夹repository&#xff0c;写上安装路径的坐标&#xff0c;修改Maven仓库镜像&#xff0c;输入cmd验证是否安装成功 <mirror><id>alimaven</id><mirrorOf>…

PlatformIO 自定义脚本选择编译库源文件 - 设置只用于C++ 的编译选项

PlatformIO 只支持以文件夹为单位选择要编译的源文件&#xff0c;不像Keil 或者CMake&#xff0c;可以手动控制每一个源文件。而且默认只会将库的src 文件夹下的源文件全部加入编译。比如&#xff0c;某个库的文件结构如下&#xff1a; libx src include mem| a.c| b.c| c.c…

dolphinscheduler单机部署链接oracle

部署成功请给小编一个赞或者收藏激励小编 1、安装准备 JDK版本:1.8或者1.8oracle版本&#xff1a;19Coracle驱动版本&#xff1a;8 2、安装jdk 下载地址&#xff1a;https://www.oracle.com/java/technologies/downloads/#java8 下载后上传到/tmp目录下。 然后执行下面命…

MongoDB常见面试题总结(上)

MongoDB 基础 MongoDB 是什么&#xff1f; MongoDB 是一个基于 分布式文件存储 的开源 NoSQL 数据库系统&#xff0c;由 C 编写的。MongoDB 提供了 面向文档 的存储方式&#xff0c;操作起来比较简单和容易&#xff0c;支持“无模式”的数据建模&#xff0c;可以存储比较复杂…

MATLAB2024a超详细图文安装教程(2025最新版保姆级教程)附安装钥

目录 前言 一、MATLAB下载 二、MATLAB安装 二、MATLAB启动 前言 MATLAB&#xff08;Matrix Laboratory&#xff09;是由MathWorks公司开发的一款高性能的编程语言和交互式环境&#xff0c;主要用于数值计算、数据分析和算法开发。内置数学函数和工具箱丰富&#xff0c;开发…

基于 Spring Boot 瑞吉外卖系统开发(二)

基于 Spring Boot 瑞吉外卖系统开发&#xff08;二&#xff09; 员工登录功能实现 员工登录页面login.html存放在/resources/backend/page/login目录下。 启动项目&#xff0c;在浏览器中通过地址“http://localhost:8080/backend/page/login/login.html”访问员工登录页面。…

软考系统架构设计师之大数据与人工智能笔记

一、大数据架构设计 1. 核心概念与挑战 大数据特征&#xff1a;体量大&#xff08;Volume&#xff09;、多样性&#xff08;Variety&#xff09;、高速性&#xff08;Velocity&#xff09;、价值密度低&#xff08;Value&#xff09;。传统数据库问题&#xff1a;数据过载、性…

146. LRU 缓存 带TTL的LRU缓存实现(拓展)

LRU缓存 方法一:手动实现双向链表 哈希表 struct Node{int val;int key;Node* prev;Node* next;Node(int a, int b): key(a), val(b), prev(nullptr), next(nullptr) {}Node():key(0), val(0), prev(nullptr), next(nullptr) {} }; class LRUCache { private:Node* removeTai…

浅层神经网络:全面解析(扩展)

浅层神经网络&#xff1a;全面解析&#xff08;扩展&#xff09; 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;可以分享一下给大家。点击跳转到网站。 https://www.captainbed.cn/ccc 一、神经网络架构演进图谱 #mermaid-svg-…

Qt 事件系统负载测试:深入理解 Qt 事件处理机制

Qt 事件系统负载测试&#xff1a;深入理解 Qt 事件处理机制 文章目录 Qt 事件系统负载测试&#xff1a;深入理解 Qt 事件处理机制摘要引言实现原理1. 自定义事件类型2. 事件队列管理3. 性能指标监控4. 事件发送机制 性能监控实现1. 负载计算2. 内存监控3. 延迟计算 使用效果优化…

Unity3D仿星露谷物语开发33之光标位置可视化

1、目标 当从道具栏中拖出一个道具到地面的时候&#xff0c;光标区域会显示是否可放置物体的可视化显示。绿色表示可以放置物体&#xff0c;红色表示不可以放置物体。 2、优化InventoryManager脚本 添加2个方法&#xff1a; /// <summary>/// Returns the itemDetails&…

蓝桥杯冲刺题单--二分

二分 知识点 二分&#xff1a; 1.序列二分&#xff1a;在序列中查找&#xff08;不怎么考&#xff0c;会比较难&#xff1f;&#xff09; 序列二分应用的序列必须是递增或递减&#xff0c;但可以非严格 只要r是mid-1&#xff0c;就对应mid&#xff08;lr1&#xff09;/2 2.答…