【计算机视觉】Visual grounding系列

news2025/7/21 14:24:47

文章目录

  • 一、任务简介
  • 二、Visual grounding常用数据集与评估指标
    • 2.1 常用数据集
    • 2.2 评估指标
  • 三、Visual grounding主流做法

一、任务简介

Visual grounding涉及计算机视觉和自然语言处理两个模态。

简要来说,输入是图片(image)和对应的物体描述(sentence\caption\description),输出是描述物体的box。

听上去和目标检测非常类似,区别在于输入多了语言信息,在对物体进行定位时,要先对语言模态的输入进行理解,并且和视觉模态的信息进行融合,最后利用得到的特征表示进行定位预测。

Visual grounding按照是否要对语言描述中所有提及的物体进行定位,可以进一步划分为两个任务:

  • Phrase Localization
  • Referring Expression Comprehension(REC)

在这里插入图片描述

Phrase Localization又称为Phrase Grounding,如上图,对于给定的sentence,要定位其中提到的全部物体(phrase),在数据集中对于所有的phrase都有box标注。

在这里插入图片描述

Referring Expression Comprehension也称为Referring expression grounding。见上图,每个语言描述(这里是expression)只指示一个物体,每句话即使有上下文物体,也只对应一个指示物体的box标注。

二、Visual grounding常用数据集与评估指标

2.1 常用数据集

  • Phrase Localization

常用的数据集即Flickr30k Entities数据集,包含31783张image,每张图会对应5个不同的caption,所以总共158915个caption,以及244035个phrase-box标注。对于每个phrase还细分为people, clothing, body parts, animals, vehicles, instruments, scene, othera八个不同的类别。

另外很多phrase localization的工作还会在ReferItGame数据集(又称RefCLEF)上进行实验,这个数据集严格来说应该属于REC任务。图片来自ImageCLEF数据集,包含130525个expression,涉及238个不同的物体种类,有96654个物体,19894张图像。其中的数据是通过一种称为refer it game的双人游戏进行标注的,如下图:

在这里插入图片描述

左侧的人根据region来写expression,右侧的人根据expression选择region。

  • Referring expression comprehension

常用的有三个数据集RefCOCO, RefCOCO+, RefCOCOg。这三个数据集的区别可以通过下面的样例理解:

在这里插入图片描述

2.2 评估指标

  • prediction box和groud-truth box的交并比(intersection over
    union,IoU)大于0.5记为一次正确定位,以此来计算准确率(Accuracy)

最近的一些工作使用Recall@k指标,表示预测概率前k大的prediction box和ground-truth box的IoU大于0.5的定位准确率。

  • Pointing game,选择最终预测的attention mask中权重最大的像素位置,如果该点落在ground-truth区域内,记为一次正确定位。相比Acc指标更加宽松

三、Visual grounding主流做法

目前Visual grounding可以分为全监督(Fully-supervised)、弱监督(Weakly-supervised)、无监督(Unsupervised)三种。

在这里插入图片描述

  • 全监督(Fully-supervised):顾名思义,就是有object-phrase的box标注信息
  • 弱监督(Weakly-supervised):输入只有image和对应的sentence,没有sentence中的object-phrase的box标注
  • 无监督(Unsupervised):image-sentence的信息都没有。目前据我所知,只有ICCV2019的WPT[5]是无监督,非常有意思,结果也很有比较价值

全监督中,现在的做法可以分为two-stage和one-stage两种做法。

two-stage就是第一个阶段先通过RPN或者传统的算法(Edgebox、SelectiveSearch)等提取候选的proposals以及它们的features,然后在第二个阶段进行详细的推理,例如常见的做法是把视觉特征和语言特征投射到一个公共的向量空间,计算相似度,选择最相近的proposal作为预测结果。

one-stage则是基于目标检测领域的one-stage模型,例如YOLO、RetinaNet等。

弱监督由于缺少phrase和box之间的mapping,会额外设计很多损失函数,例如基于reconstruction,引入external knowledge,基于image-caption匹配设计loss的等等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/395187.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

市场营销书籍推荐:《经理人参阅:市场营销》

要学好市场营销有什么好方法?答案是看书!比起碎片化地去阅读一些文章或看一些相关视频,读书来得更实在些。倘若能静下心来好好读上一本系统性的市场营销书籍,学好营销管理将不会再是一件难事。然而,问题的关键是&#…

大模型分布式系统

背景:模型越来越大,训练复杂度越来越高,需要训练的时间也是越来越长。那么我们该如何在现有的硬件基础上对模型做训练呢。模型规模的扩大,对硬件(算力、内存)的发展提出要求。然而,因为 内存墙 …

2023年襄阳中级工程师职称评审通知出来了哟

襄阳市职称改革工作领导小组办公室关于做好2022年度襄阳市非公企业工程系列中级任职资格评审工作的通知 各县(市、区)人力资源和社会保障局(职改办): 根据市职改办《关于做好2022年度全市职称评审工作的通知》&#x…

IT女神节(致敬中国IT界永远的女神严蔚敏-数据结构)

我们都知道程序数据结构算法。相信很多人都学过严蔚敏的数据结构的课程。作为一个码农,在这不管是3.7女神节,还是3.8妇女节。我觉得都有必要向这些教育界的老前辈致敬。今天我就梳理梳理,最经典的数据结构教材。 严蔚敏介绍(来自…

HTML学习笔记入门到精通day01

零、 复习昨日 见代码 一、二阶段介绍 第一阶段 java基本语法 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aY95CV7t-1678153713499)(D:\前锋学习笔记\笔记\image-20230307094126248.png)] 二、HTML 2.1 HTML概念 ​ 网页,是网站中的一…

MS python学习(7)

Managing Keys - dotenv Managing keys usage of .env module 项目地址:https://github.com/theskumar/python-dotenv Reads the key,value pair from .env and adds them to environment variable. 将key明文(hard code)形式写在script里…

java开发基础了解

Java 2023-03-07 1、开发工具 (1)jdk1.8 ,11,17,从11开始不免费 java纯面向对象------面向对象(对象)面向过程(函数)。就和JavaScript语言。 (2)Mysql8.0 (3&#xff…

MySQL是怎样运行的——如何正确的使用索引

序言 下边我们将唠叨许多种让B树索引发挥最大效能的技巧和注意事项,不过大家要清楚,所有的技巧都是源自你对B树索引本质的理解,所以如果你还不能保证对B树索引充分理解,那么再次建议回过头把前边的内容看完了再来,要不…

TouchBoard 使用教程

一. 硬件采购: 其实我是想买原版的TouchBoard的,但是售罄了, 只能买国产的了,这是淘宝唯一一家提供技术支持的店铺(下面的库文件直接找店家要就行) https://item.taobao.com/item.htm?spm=a21dvs.23580594.0.0.3c3a645epX97Bf&ft=t&id=706464470339 其他硬件…

Day10-网页布局实战CSS3

一 补充 1 画三角形 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevi…

WebAuthn无密码身份验证技术

背景WebAuthn全称是Web Authentication API&#xff0c;是由W3C和FIDO在 Google、Mozilla、Microsoft、Yubico 等公司的参与下编写的规范。WebAuthn是一组在服务器、浏览器和身份验证器之间启用无密码身份验证技术。一般使用非对称加密技术&#xff0c;用公钥代替传统的密码&am…

Vue实例的常用属性 Vue实例常用方法

vm.$ el和 vm.$ data 在new Vue()实例中经常设置el&#xff0c;data选项&#xff0c;data选项里面又可以定义很多属性&#xff08;常称为数据属性&#xff09;&#xff0c;Vue提供了一些有用的实例属性与方法&#xff0c;它们都有前缀$,以便与用户定义的属性相区别。 使用Vue…

Linux服务:LVS负载均衡+keepalived架构

目录 一、LVS 1、负载均衡的结构 2、LVS三种工作模式 3、LVS调度算法 5、ipvsadm工具 二、KEEPALIVED 1、KEEPALIVED作用 2、KEEPALIVED原理 3、KEEPALIVED工作模式 4、KEEPLIVED问题及优化 三、LVSKEEPALIVED架构实现 1、实验目的 2、实验拓扑 3、实验准备 4、…

关于几种求最短路算法的碎碎念(Dijkstra、spfa、floyd)

目录 一、求1号点到n号点的最短路 1、所有边都是正数——Dijkstra &#xff08;1&#xff09;朴素版dijkstra - 邻接矩阵 &#xff08;2&#xff09;堆优化版dijstra - 邻接表 2、存在负权边——spfa 3、dijkstra和spfa的区别 二、起点和终点未知&#xff0c;求某两点间…

【16】linux命令每日分享——chmod修改权限

大家好&#xff0c;这里是sdust-vrlab&#xff0c;Linux是一种免费使用和自由传播的类UNIX操作系统&#xff0c;Linux的基本思想有两点&#xff1a;一切都是文件&#xff1b;每个文件都有确定的用途&#xff1b;linux涉及到IT行业的方方面面&#xff0c;在我们日常的学习中&…

使用QIS(Quantum Image Sensor)图像重建总结(1)

最近看了不少使用QIS重建图像的文章&#xff0c;觉得比较完整详细的还是Abhiram Gnanasambandam的博士论文&#xff1a;https://hammer.purdue.edu/articles/thesis/Computer_vision_at_low_light/20057081 1 介绍 讲述了又墨子的小孔成像原理&#xff0c;到交卷相机&#xf…

[AI助力] 2022.3.3 考研英语学习 2012 英语二翻译

[AI助力] 2022.3.3 考研英语学习 2012 英语二翻译 文章目录[AI助力] 2022.3.3 考研英语学习 2012 英语二翻译2012年英语二翻译真题总结积累&#x1f9d0;来点好玩的想法~ 这次试试让AI做更多的事情它居然给出了流汗黄豆&#x1f605;让它评价一下参考答案让AI评价我的翻译让AI …

工具及方法 - Windows下出现“IPv4/IPv6 No Internet Access“错误

家里的PS4&#xff0c;突然用电信网刷新不了PS会员游戏了。同样的网&#xff0c;登录微软账号也登不上。难道是网络问题&#xff1f; 可我换成手机热点就是好的&#xff0c;而且PS4再用电信网络就恢复了。 让我郁闷了一下&#xff0c;开始怀疑人生。后来上网查了一下&#xf…

IM即时通讯开发用Netty实现心跳机制、断线重连机制

所谓心跳, 即在 TCP 长连接中, 客户端和服务器之间定期发送的一种特殊的数据包, 通知对方自己还在线, 以确保 TCP 连接的有效性。注&#xff1a;心跳包还有另一个作用&#xff0c;经常被忽略&#xff0c;即&#xff1a;一个连接如果长时间不用&#xff0c;防火墙或者路由器就会…

百天百题(1/100)Java创建线程的方式?

首先创建线程有四种种方式&#xff1a; 1.继承Thread类 缺点&#xff1a;1.Java是不支持多继承的&#xff0c;所以我们不能在继承其他的类了 2.不能通过线程池来此操作&#xff0c;每次创建一个线程都需要先创建一个类&#xff0c;创建和销毁线程对整体的资源开销是非常大的。…