Python----目标检测(MS COCO数据集)

news2025/7/19 6:32:10

一、MS COCO数据集

COCO 是一个大规模的对象检测、分割和图像描述数据集。COCO有几个 特点:

        Object segmentation:目标级的分割(实例分割)

        Recognition in context:上下文中的识别(图像情景识别)

        Superpixel stuff segmentation:超像素分割

        330K images (>200K labeled):330K 图像(>200K 已经做好标记)

        1.5 million object instances:150 万个对象实例

        80 object categories:80 个目标类别

        91 stuff categories: 91 个场景物体类别 (stuff中包含没有明确边界 的材料和对象,比如天空)

        5 captions per image:每张图片 5 个情景描述(标题)

        250,000 people with keypoints:250,000 人体的关键点标注

注意:80 object categories 是 91 stuff categories 的子集

        80 object categories 是传统意义上的“物体”,通常是可以单独识别和分 割的具体对象。它们通常具有明确的边界,可以用边界框(bounding box)和分割掩码(segmentation mask)进行标注。例如:人 (person)、自行车(bicycle) 这些物体类别在图像中通常是离散的,可 以被独立标注和识别。

        91 Stuff Categories 是“场景物体”或“背景物体”,通常是一些没有明确边 界的区域,通常作为背景存在。它们不容易被单独识别,因为它们的边界 通常是连续的。这些类别在图像中通常覆盖大面积,且没有清晰的边界。 例如:草(grass)、天空(sky) 这些场景物体类别的标注通常用于场景 解析任务,例如场景分割(scene segmentation),而不是对象检测。

官方:

        COCO - Common Objects in Context

论文

        [1405.0312] Microsoft COCO: Common Objects in Context 

二、与Pascal VOC对比

        橙色是Pascal VOC包含的类别,蓝色是COCO包含的类别。纵坐标是标注 的数量。 很

        多模型的预训练模型(模型文件)都是COCO数据集上训练出来的,然后我们自己去做迁移学习进行训练。

        注意:COCO数据集训练非常耗时,一般单块GPU(如 NVIDIA V100): 通常需要数天到数周的训练时间。

三、目标检测需要的文件 

2017 Train images [118K/18GB]:训练过程中使用到的所有图像文件

2017 Val images [5K/1GB]:验证过程中使用到的所有图像文件

2017 Train/Val annotations[241MB]:对应训练集和验证集的标注json文 件

train2017:所有训练图像文件夹(118287张)

val2017:所有验证图像文件夹(5000张)

annotations:对应标注文件夹

        |—instances train2017.json:对应目标检测、分割任务的训练集标注 文

        |—instances_val2017.json:对应目标检测、分割任务的验证集标注文 件

        |—captions train2017.json:对应图像描述的训练集标注文件

        |—captions_va12017.json:对应图像描述的验证集标注文件

        |—person keypoints train2017.json:对应人体关键点检测的训练集 标注文件

        |—person_keypoints_val2017.json:对应人体关键点检测的验证集标 注文件夹

四、读取COCO数据集的JSON

import json
 
labels =json.load(open("../annotations_trainval2017/annotations/instances_train2017.json","r"))
print(labels)

 直接打印的话,打印不全,同时格式很乱,所以使用debug。

 其中:labels中有5个字典:分别是info、licenses、Images、 annotations、categories。

4.1、info

这个字典包含了关于数据集的基本信息。

        description : 数据集的描述,这里是 "COCO 2017 Dataset"。

        url : 数据集的URL链接,即官网地址,这里是 "https://cocodataset.org/"。

        version : 数据集的版本号,这里是 "1.0"。

        year : 数据集创建的年份,这里是 2017。

        contributor : 数据集的贡献者,这里是 "COCO Consortium"。

        date_created : 数据集创建的日期,这里是 "2017/09/01"。

4.2、licenses

这个字典列表包含了数据集所用到的不同许可证的信息。

每个字典表示一种许可证,包含以下键:

        id : 许可证的唯一标识符。

        name : 许可证的名称。

        url : 许可证的详细信息链接。

例如: id: 1 , name: Attribution-NonCommercial-ShareAlike License 代表此许可证。

4.3、images

这个字典列表包含了数据集中所有图像的信息。

每个字典表示一张图像,包含以下键:

        id : 图像的唯一标识符。

        coco_url : 图像的COCO数据集URL。

        其他可能包含的信息如文件名、高度、宽度等。

4.4、annotations

这个字典列表包含了数据集中所有标注的信息。

每个字典表示一个标注,包含以下键:

        id : 标注的唯一标识符。

        image_id : 该标注所属图像的唯一标识符。

        category_id : 该标注所属类别的唯一标识符(91 stuff categories的 索引)。

        area : 标注区域的面积。

        bbox : 标注的边界框(bounding box),通常用一个四元组表示(x, y, width, height)。

        segmentation : 分割标注的信息,通常是一个多边形的点集。

        其他标注信息如分数(score)、关键点(keypoints)等。

4.5、categories

这个字典列表包含了数据集中所有类别的信息(91 stuff categories,使用 80 object categories时需要映射)。

每个字典表示一个类别,包含以下键:

        id : 类别的唯一标识符。

        name : 类别的名称(如 "person", "bicycle" 等)。

        supercategory : 类别的上一级分类(超类)。

例如:

        id: 1 , name: person , supercategory: person 代表 "person" 类 别。

五、使用pycocotools读取COCO数据集

5.1、安装pycocotools

python -m pip install pycocotools-windows==2.0.0.2  -i https://pypi.tuna.tsinghua.edu.cn/simple/

5.2、读取COCO数据集并显示目标检测的第一张

import os
import json
from PIL import Image, ImageDraw
from pycocotools.coco import COCO

# COCO数据集的路径
annotation_path = "./instances_val2017.json"
img_path = "./val2017/val2017"

# 加载COCO数据集,打断点
coco = COCO(annotation_path)
# 查看5000张图像

# 获取所有图像的ID
img_ids = coco.getImgIds()
# 看到所有5000张图像的索引

# 处理前5张图像
for img_id in img_ids[:1]:
    # 获取图像信息,可以看到397133这章图片的信息
    img_info = coco.loadImgs(img_id)[0]
    img_file = os.path.join(img_path, img_info['file_name'])

    # 打开图像
    img = Image.open(img_file)
    draw = ImageDraw.Draw(img)

    # 获取该图像的所有标注
    # getAnnIds 函数可以接受多个参数,例如 imgIds、catIds 和 areaRng,以便根据图像ID、类别ID或面积范围来筛选标注。
    # 这个函数会返回一个标注ID列表,这些标注ID对应于指定图像ID的所有标注。
    ann_ids = coco.getAnnIds(imgIds=img_id)
    anns = coco.loadAnns(ann_ids)

    for ann in anns:
        # 获取类别名称
        category_id = ann['category_id']
        category_name = coco.loadCats(category_id)[0]['name']

        # 获取边界框
        bbox = ann['bbox']
        x, y, w, h = bbox

        # 绘制边界框
        draw.rectangle([x, y, x + w, y + h], outline="red", width=2)

        # 绘制类别名称
        draw.text((x, y - 10), category_name, fill="red")

    # 显示图像
    img.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2387603.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

塔能科技:有哪些国内工业节能标杆案例?

在国内工业领域,节能降耗不仅是响应国家绿色发展号召、践行社会责任的必要之举,更是企业降低运营成本、提升核心竞争力的关键策略。塔能科技在这一浪潮中脱颖而出,凭借前沿技术与创新方案,成功打造了多个极具代表性的工业标杆案例…

OpenCV CUDA模块图像过滤------创建一个行方向的一维积分(Sum)滤波器函数createRowSumFilter()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 cv::cuda::createRowSumFilter 是 OpenCV CUDA 模块中的一个函数,用于创建一个行方向的一维积分(Sum)滤波器。…

Frequent values/gcd区间

Frequent values 思路: 这题它的数据是递增的,ST表,它的最多的个数只会在在两个区间本身就是最多的或中间地方产生,所以我用map数组储存每个值的左右临界点,在ST表时比较多一个比较中间值的个数就Ok了。 #define _…

08SpringBoot高级--自动化配置

目录 Spring Boot Starter 依赖管理解释 一、核心概念 二、工作原理 依赖传递: 自动配置: 版本管理: 三、核心流程 四、常用 Starter 示例 五、自定义 Starter 步骤 创建配置类: 配置属性: 注册自动配置&a…

Deep Evidential Regression

摘要 翻译: 确定性神经网络(NNs)正日益部署在安全关键领域,其中校准良好、鲁棒且高效的不确定性度量至关重要。本文提出一种新颖方法,用于训练非贝叶斯神经网络以同时估计连续目标值及其关联证据,从而学习…

「Python教案」循环语句的使用

课程目标 1.知识目标 能使用for循环和while循环设计程序。能使用循环控制语句,break、continue、else设计程序。能使用循环实际问题。 2.能力目标 能根据需求合适的选择循环结构。能对嵌套循环代码进行调试和优化。能利用循环语句设计&am…

linux快速入门-VMware安装linux,配置静态ip,使用服务器连接工具连接,快照和克隆以及修改相关配置信息

安装VMWare 省略,自己检索 安装操作系统-linux 注意:需要修改的我会给出标题,不要修改的直接点击下一步就可以 选择自定义配置 选择稍后安装操作系统 选择合适的内存 选择NAT模式 仅主机模式 虚拟机只能和主机通信,不能上网…

轻量化开源方案——浅析PdfPatcher实际应用

PDF处理在实际工作中十分重要,今天浅析PdfPatcher在PDF处理中的实际应用。 核心功能实测 批量处理能力 支持修改文档属性/页码编号/页面链接 一键清除复制/打印限制(实测WPS加密文档可解锁) 自动清理隐藏冗余数据(经测试可平均…

Ansible常用Ad-Hoc 命令

1.配置sshpass yum install sshpass -y ssh-keygen -t dsa -f ~/.ssh/id_dsa -P "" # ssh-keygen密钥生成工具 -t密钥类型为dsa -f指定生成的密钥文件的路径。 -P:指定私钥的密码。 for i in seq 128 130; do sshpass -p123456 ssh-copy-id -i ~/.s…

[论文阅读]Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning

Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning [2402.08416] Pandora: Jailbreak GPTs by Retrieval Augmented Generation Poisoning 间接越狱攻击 GPT的RAG增强过程分四个阶段:❶GPT首先组织不同的用户上传的文档类型(PDF、…

云效流水线Flow使用记录

概述 最近在频繁使用阿里云云效的几款产品,如流水线。之前写过一篇,参考云效流水线缓存问题。 这篇文章来记录更多问题。 环境变量 不管是云效流水线Flow还是应用交付AppStack(基于流水线,后文不再赘述)&#xff0…

OpenCV CUDA模块图像处理------颜色空间处理之颜色空间转换函数cvtColor()

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 该函数用于在 GPU 上进行颜色空间转换,支持多种常见的颜色空间转换操作。 函数原型 void cv::cuda::cvtColor (InputArray src…

科技初创企业创新推动商业未来

在这个因变革而蓬勃发展的世界里,科技初创企业已成为各行业创新、颠覆与转型的驱动力。这些雄心勃勃的企业正在重塑商业格局,挑战既定规范,并不断突破可能性的边界。本文将深入探索科技初创企业的精彩领域,探讨它们如何通过创新塑…

猿大师办公助手WebOffice用二进制数据流在Web前端打开Office文档

猿大师办公助手作为第三代WebOffice方案,猿大师办公助手把本地原生Office无缝嵌入网页环境中实现在线编辑Office功能,提供了完全与本机Office一致(排版、打印等)的操作体验,保留100%原生功能(VBA宏、复杂公…

etcd:高可用,分布式的key-value存储系统

引言 etcd是基于go语言开发的一款kv存储引擎,基于raft一致性算法实现的一种存储 一.etcd的底层原理 1.etcd的特点 高可用性与一致性:etcd 使用 Raft 算法保证集群中数据的强一致性,即使在节点故障的情况下也能保持数据完整性。 分布式存储&a…

AI in Game,大模型能力与实时音视频技术融合,交出AI应用新答卷

随着AI的技术进步和工具普及,尤其是在这两年的跃进之后,AI在游戏行业内的应用已经逐步由理念设想推向落地实践。从蔡浩宇披露的AI新游《Whispers From The Star》到GDC上各大厂家呈现的游戏AI新亮点,我们看到了更多AI与游戏的结合方式&#x…

欢乐熊大话蓝牙知识11:如何打造一个低功耗蓝牙温湿度传感器?

🧊 如何打造一个低功耗蓝牙温湿度传感器? 用电像抠门老头,通信像特工密谈。 🌡️ 引子:为什么你需要一个低功耗 BLE 传感器? 你是不是有过这种需求: 想在办公室角落放个传感器看温湿度,却不想拉电源线?想给智能养宠箱加个环境感知模块,但不能三天一换电池?想造个…

Linux 安装 Remmina

欢迎关注公号:每日早参,第一时间获取AI资讯! 为什么安装Remmina, 因为Mobaxterm免费版本有窗口限制。 Remmina 是一款功能强大的开源远程桌面客户端,适用于 Linux 和其他类 Unix 系统,也支持 Windows 平台。 安装指南…

什么是HTTP HTTP 和 HTTPS 的区别

HTTP协议定义 超文本传输协议(HyperText Transfer Protocol, HTTP)是一种应用层协议,主要用于客户端与服务器之间的数据交换。它基于请求-响应模型运行,在每次会话中由客户端发起请求,服务器返回相应的内容。 HTTP 是…

Pycharm and Flask 的学习心得(10)重定向

一 定义: 服务器告诉浏览器:你现在访问的这个页面,请改去另一个地址访问。 浏览器接收到这个“指令”后,会 自动跳转到另一个网页。 二 如何写: 方法一:重定向到网址 方法二:重定向到自己的…