【计算机视觉 自然语言处理】什么是多模态?

news2025/7/14 8:10:49

文章目录

  • 一、多模态的定义
  • 二、多模态的任务
    • 2.1 VQA(Visual Question Answering)视觉问答
    • 2.2 Image Caption 图像字幕
    • 2.3 Referring Expression Comprehension 指代表达
    • 2.4 Visual Dialogue 视觉对话
    • 2.5 VCR (Visual Commonsense Reasoning) 视觉常识推理
    • 2.6 NLVR(Natural Language for Visual Reasoning)自然语言视觉推理
    • 2.7 Visual Entailment 视觉蕴含
    • 2.8 Image-Text Retrieval 图文检索
  • 三、多模态融合的方式
    • 3.1 点乘或者直接追加
    • 3.2 Transformer

一、多模态的定义

多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。

顾名思义,多模态研究的就是这些不同类型的数据的融合的问题。

目前大多数工作中,只处理图像和文本形式的数据,即把视频数据转为图像,把音频数据转为文本格式。这就涉及到图像和文本领域的内容。

二、多模态的任务

多模态研究的是视觉语言问题,其任务是关于图像和文字的分类、问答、匹配、排序、定位等问题。

例如给定一张图片,可以完成以下任务:

2.1 VQA(Visual Question Answering)视觉问答

  • 输入:一张图片、一个自然语言描述的问题
  • 输出:答案(单词或者短语)

2.2 Image Caption 图像字幕

  • 输入:一张图片
  • 输出:图片的自然语言描述(一个句子)

2.3 Referring Expression Comprehension 指代表达

  • 输入:一张图片、一个自然语言描述的句子
  • 输出:判断句子描述的内容(正确或错误)

2.4 Visual Dialogue 视觉对话

  • 输入:一张图片
  • 输出:两个角色进行多次交互、对话

2.5 VCR (Visual Commonsense Reasoning) 视觉常识推理

  • 输入:1个问题,4个备选答案,4个理由
  • 输出:正确答案,和理由

2.6 NLVR(Natural Language for Visual Reasoning)自然语言视觉推理

  • 输入:2张图片,一个分布
  • 输出:true或false

2.7 Visual Entailment 视觉蕴含

  • 输入:图像、文本
  • 输出:3种label的概率。(entailment、neutral、contradiction)蕴含、中性、矛盾

2.8 Image-Text Retrieval 图文检索

有3种方式。

1)以图搜文。输入图片,输出文本

2)以文搜图。输入文本,输出图片

3)以图搜图,输入图片,输出图片

三、多模态融合的方式

通过NLP的预训练模型,可以得到文本的嵌入表示;再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示;那么,如何将两者融合起来,来完成以上的各种任务呢?

常用的多模态交叉的方式有两种:

3.1 点乘或者直接追加

此种方式将文本和图像分别进行Embedding,之后将各自的向量进行追加或者点乘。

好处是简单方便,计算成本也比较低。

在这里插入图片描述

在这里插入图片描述

3.2 Transformer

其好处是利用了Transformer架构,能够更好地进行图像特征和文本特征的表示。

缺点是占用空间大,计算成本较高。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/395979.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

让你眼前一亮的不是流行软件,而是这五款小众软件

让你眼前一亮的软件,不一定是市面上最流行的。今天,我将推荐给你五款非常小众,但是十分好用的软件。它们功能强大,使用起来也非常方便,而且经过我个人的测试,确保质量有保障。如果你用完后觉得不好用&#…

Java VisualVM 安装 Visual GC 插件图文教程

文章目录1. 通过运行打开 Java VisualVM 监控工具2. 菜单栏初始视图说明3. 工具插件菜单说明4. 手工安装插件5. 重启监控工具查看 Visual GC1. 通过运行打开 Java VisualVM 监控工具 首先确保已安装 Java 环境,如此处安装版本 JDK 1.8.0_161 C:\Users\niaonao>j…

从零开始学GeoServer源码十一(如何解决No Multipart-config for Servlet错误)

目录前言1.现象2.排查问题3.找到问题4.解决问题5.总结前言 本文起源于我们遇到的一个问题,本来 GeoServer 使用的好好的,但是有天突然发现,无法在 GeoServer 中上传样式的 sld 文件了,报错 “No Multipart-config for Servlet” …

【Python安装配置教程】

Python由荷兰数学和计算机科学研究学会的吉多范罗苏姆于1990年代初设计,作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构,还能简单有效地面向对象编程。Python语法和动态类型,以及解释型语言的本质,使它成为多数平台…

一篇普通的bug日志——bug的尽头是next吗?

文章目录[bug 1] TypeError: method object is not subscriptable[bug 2] TypeError: unsupported format string passed to numpy.ndarray.__format__[bug 3] ValueError:Hint: Expected dtype() paddle::experimental::CppTypeToDataType<T>::Type()[bug 4] CondaSSLE…

javaweb网上宠物商城管理系统分前后台(源码+数据库+开题报告+ppt+文档)

一、 系统运行环境 硬件配置&#xff1a;2.4G以上处理器&#xff0c;4G以上内存&#xff0c;250G以上硬盘空间&#xff1b; 操作系统&#xff1a;Windows XP、Windows 7或更高版本&#xff1b; 数据库&#xff1a;MySQL&#xff1b; Web服务器&#xff1a;Tomcat 7.0&#xff…

标准信号转高电压高电流输出放大转换器0-5v/0-24v转4-20mA/0-500mA

概述导轨安装DIN11HVI 系列模拟信号隔离放大器是一种将输入信号隔离放大、转换成按比例输出的直流信号混合集成厚模电路。产品广泛应用在电力、远程监控、仪器仪表、医疗设备、工业自控等需要直流信号隔离测控的行业。此系列产品内部采用了线性光电隔离技术相比电磁隔离具有更好…

Java中异常(异常的处理方式(JVM默认的处理方式、自己处理(灵魂四问)、抛出异常(throws、throw))、异常中的常见方法、小练习、自定义异常)

编译时异常&#xff1a;在编译阶段&#xff0c;必须要手动处理&#xff0c;否则代码报错&#xff08;提醒程序员检查本地信息&#xff09; 运行时异常&#xff1a;在编译阶段是不需要处理的&#xff0c;是代码运行时出现的异常&#xff08;代码出错而导致程序出现的问题&#…

3D软件开发工具HOOPS 2023 更新亮点合集——增强了对建筑环境和自然环境中3D图形的真实感

HOOPS SDK是全球领先开发商TechSoft 3D旗下的原生产品&#xff0c;专注于Web端、桌面端、移动端3D工程应用程序的开发。长期以来&#xff0c;HOOPS通过卓越的3D技术&#xff0c;帮助全球600多家知名客户推动3D软件创新&#xff0c;这些客户包括SolidWorks、SIEMENS、Oracle、Ar…

Java高级-----多线程

多线程JAVA高级--多线程1、基本概念&#xff1a;程序、进程、线程1.1进程与线程1.2使用多线程的优点1.3何时需要多线程2、线程的创建和使用2.1线程的创建和启动2.2Thread 类2.3API 中创建线程的四种方式2.3.1方式一继承 Thread 类2.3.1.1 步骤2.3.1.2创建过程中的两个问题说明2…

JMU软件20 计算机网络复习

文章目录题型单位换算第一章协议与划分层次、网络协议的三个组成要素&#xff0c;分层的思想等协议网络协议的三个组成要素分层的思想⭐计算机网络体系结构OSI 的七层协议TCP/IP 的四层协议五层协议发送时延、传播时延、总时延、往返时间RTT计算第二章 物理层传输媒体导向性传输…

如何用SaleSmartly完善您的实时聊天页面

众所周知&#xff0c;第一印象在业务中非常重要&#xff0c;需要确保您的网站是可以促进您与客户之间的顺畅联系。想想您访问商家联系页面时&#xff0c;你通常看到什么&#xff1f;可能是用于发送电子邮件的对话框&#xff0c;也可能是要呼叫的电话号码&#xff0c;虽然这是一…

【LeetCode】剑指 Offer(18)

目录 题目&#xff1a;剑指 Offer 35. 复杂链表的复制 - 力扣&#xff08;Leetcode&#xff09; 题目的接口&#xff1a; 解题思路&#xff1a; 代码&#xff1a; 过啦&#xff01;&#xff01;&#xff01; 写在最后&#xff1a; 题目&#xff1a;剑指 Offer 35. 复杂链…

Mysql8.0的特性

Mysql8.0的特性 建议使用8.0.17及之后的版本&#xff0c;更新的内容比较多。 新增降序索引 -- 如下所示&#xff0c;我们可以在创建索引时 在字段名后面指定desc进行降序排序 create table t1(c1 int,c2 int,index idx_c1_c2(c1,c2 desc));group by 不再隐式排序 mysql5.7的版…

使用Chakra-UI封装简书的登录页面组件(React)

要求&#xff1a;使用chakra ui和react 框架将简书的登录页面的表单封装成独立的可重用的组件使用到的API&#xff1a;注册API请求方式&#xff1a;POST 请求地址&#xff1a;https://conduit.productionready.io/api/users请求数据: {"user":{ "username&quo…

typora-beta-0.11.18版本又提示过期的解决方案

很实用&#xff0c;所以照搬一下下面的作者的回答&#xff0c;省得以后再找~~~ 知乎的作者来源如下&#xff1a; 作者&#xff1a;吴小皓 链接&#xff1a;typora打开报错&#xff1a;This beta version of Typora is expired, please download and install a newer version …

Servlet | Servlet简单入门——构建第一个Servlet项目

本专栏主要是记录学习JavaWeb中的Servlet相关知识点&#xff0c;如果刚开始学习Java的小伙伴可以点击下方连接查看专栏 本专栏地址&#xff1a;&#x1f525;Servlet Java入门篇&#xff1a; &#x1f525;Java基础学习篇 Java进阶学习篇&#xff08;持续更新中&#xff09;&am…

AAAI2023 | VBLC:恶劣条件下针对领域自适应语义分割的可见度增强和逻辑值约束...

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入&#xff01;李明嘉&#xff1a;北京理工大学硕士研究生&#xff0c;目前研究方向为迁移学习、语义分割。内容简介&#xff1a;在实际系统中&#xff0c;要求将在正常视觉条件下训练的模型推广到不利条件下的目标域。一种普遍的…

Cacti监控讲解

Cacti监控讲解 1、Cacti原理的概述 组件构成&#xff1a; 组合框架&#xff1a;LAP数据收集&#xff1a;SNMP 这个是简单的网络管理协议监控的必须使用的协议&#xff1b;SNMP Apache&#xff1a;web页面提供&#xff1b; 动态共享模块功能&#xff1b; 绘制图形&#xff1a…

Python图像处理:频域滤波降噪和图像增强

图像处理已经成为我们日常生活中不可或缺的一部分&#xff0c;涉及到社交媒体和医学成像等各个领域。通过数码相机或卫星照片和医学扫描等其他来源获得的图像可能需要预处理以消除或增强噪声。频域滤波是一种可行的解决方案&#xff0c;它可以在增强图像锐化的同时消除噪声。 …