【多模态+数据集】LLaVa1.5训练数据集解析(用于参考制作自己数据集)

news2025/5/15 19:02:13

LLaVa 家族 (Large Language and Vision Assistant )

代码: https://github.com/haotian-liu/LLaVA
LLaVA-1.5论文: 23.10.Improved Baselines with Visual Instruction Tuning

LLaVA-1.5论文解析:https://blog.csdn.net/imwaters/article/details/136896668

LLaVA1.5 训练用到的数据集

指令微调用到的对话数据集:主要由llava_v1_5_mix665k.json

  • COCO: train2017
  • GQA: images
  • OCR-VQA: download script, ** .jpg** || huggingface 直接查看 || 论文
  • TextVQA: train_val_images
  • VisualGenome: part1, part2

在这里插入图片描述
整理后的结构

├── coco
│   └── train2017
├── gqa
│   └── images
├── ocr_vqa
│   └── images
├── textvqa
│   └── train_images
└── vg
    ├── VG_100K
    └── VG_100K_2

4.1 GQA (图片深入理解-问答)

官网: https://cs.stanford.edu/people/dorarad/gqa/download.html
论文:GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering

使用了Visual Genome场景图结构来创建多达22M个多样化的推理问题,并附带了表示语义的功能程序
在这里插入图片描述

4.2 Textcaps数据集 (对原始的testvqa数据集重新打标)

论文:20.03.TextCaps: a Dataset for Image Captioning with Reading Comprehension
官网下载:https://textvqa.org/textcaps/dataset/

旨在探究图像字幕生成中的阅读理解任务。该数据集包含了28,408张图像142,040个字幕,要求模型能够读取并理解图像中的文本信息,生成连贯的描述

基于图片中的文字进行描述(OCR+人类标准订正)
为每张图像收集了五个独立的标题。为测试集收集了另外 6 个标题
在这里插入图片描述

4.3 OCR-VQA-200K (图书封面文字问答,本模型训练只选了其中80K)

图片下载地址:https://www.kaggle.com/datasets/power0341/ocr-vqa-200k-full/download?datasetVersionNumber=1
论文地址:OCR-VQA: Visual Question Answering by Reading Text in Images

20万张图片,100万图像对
在这里插入图片描述
具体的问题问题:关于书的作者
在这里插入图片描述

4.4 VG (visual genome) 检测框+文字描述 (100k图片)

论文:Visual Genome: 视觉基因组_使用众包密集图像注释连接语言和视觉
1602.Connecting Language and Vision Using Crowdsourced Dense Image Annotations

包含了108,249张图像,并为每张图像提供了多个区域的描述和QA对,以及整张图像的场景图

并为每张图像提供了多个区域的描述和QA对,以及整张图像的场景图
在这里插入图片描述

4.5 OK-VQA: 需要外部知识视觉问答数据集 (原始14K问题)

OK-VQA:Outside Knowledge Visual Question Answering (图像内容不足以回答问题,需要借助外力)
论文:1906.A Visual Question Answering Benchmark Requiring External Knowledge

图 2:数据集示例。显示了一些示例问题及其相应的图像和答案。我们展示了每个知识类别的一个示例问题 (翻译后的)
在这里插入图片描述

4.6 A-OKVQA (增强外部知识的视觉问答)

论文:Augmented OK-VQA : 2206. A Benchmark for Visual Question Answering using World Knowledge

图1: 数据集示例
该数据集包括需要使用各种知识类型进行推理的问题,例如常识、世界知识和视觉知识。我们提供多项选择 (Multiple-Choice,MC) 和直接答案评估设置。训练集中每个问题都有一个基本原理(rationale),为回答问题提供解释/知识。
在这里插入图片描述

VQAv2

论文:1703.Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering

作者收集了成对的类似图片,每个问题对应两个不同的答案,使得模型必须依靠视觉信息来正确回答问题

图1 数据集说明

在这里插入图片描述

图2 其他案例

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1601335.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微前端 qiankun 框架接入问题记录

背景:需要搭建一个平台,这个平台的主要功能是集成各个子系统,方面对系统之间的统一管理。在搭建这样一个平台时,前端考虑使用微前端架构方式实现,使用的框架是 qiankun,本文主要记录在 qiankun 框架使用过程…

PDF文档电子签名怎么做?

如何确保电子文档的签署具有公信力和法律效力,防止伪造和假冒签名等问题,是电子文档无纸化应用面临的重要挑战。本文将详细介绍PDF文档电子签名的概念、重要性、实施步骤以及相关的法律背景,帮助用户理解并有效应用PDF文档电子签名技术。 1.…

【学习笔记】Python大数据处理与分析——Matplotlib数据可视化

一、绘图步骤 1、导入第三方库 import matplotlib.pyplot as plt import numpy as np 2、准备数据 x1 np.linspace(1, 10, 5) y1 np.sin(x1) 3、开始绘图 plt.plot(x1, y1, linewidth3) 4、完善图表 plt.title("plot figure") plt.xlabel("value of x&qu…

个人网站制作 Part 22 添加页面缓存 | Web开发项目添加页面缓存

文章目录 👩‍💻 基础Web开发练手项目系列:个人网站制作🚀 添加页面缓存🔨使用浏览器缓存🔧步骤 1: 设置响应头步骤 2: 使用ETag 🔨使用 Vue.js🔧步骤 3: 使用keep-alive组件 &#…

运动耳机什么牌子的好用?最受欢迎的五款运动耳机品牌推荐

城市的喧嚣和繁忙,常常让我们渴望逃离,去寻找一片属于自己的宁静天地。大自然,便是那个能够抚慰我们心灵、让我们重新找回宁静与美好的地方。对于热爱自然、钟情户外的你,一款合适的运动耳机,无疑是探索自然、享受运动…

连连看游戏页面网站源码,直接使用

可以上传自己喜欢的图片 游戏页面 通关页面 源码免费下载地址抄笔记 (chaobiji.cn)

【C语言】每日一题,快速提升(4)!

&#x1f525;博客主页&#x1f525;&#xff1a;【 坊钰_CSDN博客 】 欢迎各位点赞&#x1f44d;评论✍收藏⭐ 题目&#xff1a;实现计算机程序 解答&#xff1a; 该程序运用函数指针数组&#xff0c;具体请看代码 代码&#xff1a; #include <stdio.h> int add(int a…

软考 - 系统架构设计师 - Web 应用真题(2)

问题 1&#xff1a; 淘汰策略&#xff1a;遗留系统技术含量低&#xff0c;业务价值也低&#xff0c;所以需要全面重新开发一个系统来替代遗留系&#xff1b;&#xff08;一般是企业的业务发生了根本变化&#xff0c;遗留系统已经基本不再适应企业运作的需要&#xff1b;或者是遗…

【Android AMS】startActivity流程分析

文章目录 AMSActivityStackstartActivity流程startActivityMayWaitstartActivityUncheckedLocked startActivityLocked(ActivityRecord r, boolean newTask, boolean doResume, boolean keepCurTransition)resumeTopActivityLocked 参考 AMS是个用于管理Activity和其它组件运行…

人类连接的桥梁:探索Facebook如何连接世界

随着技术的发展和全球化的进程&#xff0c;我们的世界正在变得越来越紧密相连。在这个过程中&#xff0c;社交媒体平台扮演了一个至关重要的角色&#xff0c;为人们提供了一个跨越国界、文化和语言的交流平台。其中&#xff0c;Facebook作为全球最大的社交媒体平台&#xff0c;…

Harbor安装手册

安装Docker yum install -y yum-utils device-mapper-persistent-data lvm2 yum-config-manager \ --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo sed -i -e /mirrors.cloud.aliyuncs.com/d -e /mirrors.aliyuncs.com/d \ /etc/yum.repos.d/…

error C2649: “typename”: 不是“class”的解决方法

目录 1.现象 2.解决方法 1.现象 我们定义了一个模版类&#xff0c;代码如下&#xff1a; template<typename X> class CShortWaveLinkProProtocol {friend class X;public:explicit CShortWaveLinkProProtocol() {}virtual ~CShortWaveLinkProProtocol() {}private:vo…

别让商业机密跑了:企业如何锁紧数据大门

Facebook 用户数据泄露&#xff1a;2018年&#xff0c;Cambridge Analytica公司非法获取了8700万Facebook用户的个人数据&#xff0c;并用于政治广告定向&#xff1b;Capital One 金融公司泄密&#xff1a;2019年&#xff0c;美国银行Capital One遭到黑客攻击&#xff0c;导致1…

Bridge 2024---创意无限,数字资产管理新纪元

Bridge 2024是Adobe公司开发的一款强大的视觉管理工具&#xff0c;专为创意工作者和摄影师设计。它提供了一个直观、高效的平台&#xff0c;用于组织、浏览、管理和展示图像、视频和音频文件。Bridge 2024具备全面的资源管理功能&#xff0c;用户可以轻松导入、组织、预览和搜索…

白盒测试之条件组合覆盖

白盒测试之条件组合覆盖&#xff08;蓝桥课学习笔记&#xff09; 实验介绍 使用分支-条件覆盖法设计白盒测试用例时可以使程序中所有判断语句中的条件取值为真、为假的情况和整个判断语句取真分支、假分支的情况都至少被执行过一次&#xff0c;但无法覆盖到所有路径&#xff…

c++-----继承

01&#xff1a;继承是什么 定义 继承 (inheritance) 机制是面向对象程序设计 使代码可以复用 的最重要的手段&#xff0c;它允许程序员在 保 持原有类特性的基础上进行扩展 &#xff0c;增加功能&#xff0c;这样产生新的类&#xff0c;称派生类。继承 呈现了面向对象 程序设计…

Java springboot使用EasyExcel读Excel文件,映射不到属性值,对象属性值都是null

如果你的类上有这个注解&#xff0c;去掉火或注释掉就可以了 Accessors(chain true)解决方法

常用日期组件封装

date.js // 获取近期日期数组 例&#xff1a;["2024-04-04 00:00:00", "2024-04-05 23:59:59"] const getDateRange (num 1) > {const time1 new Date()const diff new Date().getTime() - 86400000 * (num)const time2 new Date(diff)const year…

Canvas使用详细教学:从基础绘图到进阶动画再到实战(海报生成、Flappy Bird 小游戏等),掌握绘图与动画的秘诀

一、Canvas基础 1. Canvas简介 Canvas是HTML5引入的一种基于矢量图形的绘图技术&#xff0c;它是一个嵌入HTML文档中的矩形区域&#xff0c;允许开发者使用JavaScript直接操作其内容进行图形绘制。Canvas元素不包含任何内在的绘图能力&#xff0c;而是提供了一个空白的画布&a…

LLM-01 大模型 本地部署运行 ChatGLM2-6B-INT4(6GB) 简单上手 环境配置 单机单卡多卡 2070Super8GBx2 打怪升级!

写在前面 其他显卡环境也可以&#xff01;但是最少要有8GB的显存&#xff0c;不然很容易爆。 如果有多显卡的话&#xff0c;单机多卡也是很好的方案&#xff01;&#xff01;&#xff01; 背景介绍 目前借到一台算法组的服务器&#xff0c;我们可以查看一下目前显卡的情况 …