Python----目标检测（MS COCO数据集）

news2026/5/4 20:28:27

一、MS COCO数据集

COCO 是一个大规模的对象检测、分割和图像描述数据集。COCO有几个特点：

Object segmentation：目标级的分割（实例分割）

Recognition in context：上下文中的识别（图像情景识别）

Superpixel stuff segmentation：超像素分割

330K images (>200K labeled)：330K 图像（>200K 已经做好标记）

1.5 million object instances：150 万个对象实例

80 object categories：80 个目标类别

91 stuff categories： 91 个场景物体类别（stuff中包含没有明确边界的材料和对象，比如天空）

5 captions per image：每张图片 5 个情景描述（标题）

250,000 people with keypoints：250,000 人体的关键点标注

注意：80 object categories 是 91 stuff categories 的子集

80 object categories 是传统意义上的“物体”，通常是可以单独识别和分割的具体对象。它们通常具有明确的边界，可以用边界框（bounding box）和分割掩码（segmentation mask）进行标注。例如：人（person）、自行车（bicycle）这些物体类别在图像中通常是离散的，可以被独立标注和识别。

91 Stuff Categories 是“场景物体”或“背景物体”，通常是一些没有明确边界的区域，通常作为背景存在。它们不容易被单独识别，因为它们的边界通常是连续的。这些类别在图像中通常覆盖大面积，且没有清晰的边界。例如：草（grass）、天空（sky）这些场景物体类别的标注通常用于场景解析任务，例如场景分割（scene segmentation），而不是对象检测。

官方：

COCO - Common Objects in Context

论文

[1405.0312] Microsoft COCO: Common Objects in Context

二、与Pascal VOC对比

橙色是Pascal VOC包含的类别，蓝色是COCO包含的类别。纵坐标是标注的数量。很

多模型的预训练模型（模型文件）都是COCO数据集上训练出来的，然后我们自己去做迁移学习进行训练。

注意：COCO数据集训练非常耗时，一般单块GPU（如 NVIDIA V100）：通常需要数天到数周的训练时间。

三、目标检测需要的文件

2017 Train images [118K/18GB]：训练过程中使用到的所有图像文件

2017 Val images [5K/1GB]：验证过程中使用到的所有图像文件

2017 Train/Val annotations[241MB]：对应训练集和验证集的标注json文件

train2017:所有训练图像文件夹(118287张)

val2017:所有验证图像文件夹(5000张)

annotations:对应标注文件夹

|—instances train2017.json:对应目标检测、分割任务的训练集标注文

|—instances_val2017.json:对应目标检测、分割任务的验证集标注文件

|—captions train2017.json:对应图像描述的训练集标注文件

|—captions_va12017.json:对应图像描述的验证集标注文件

|—person keypoints train2017.json:对应人体关键点检测的训练集标注文件

|—person_keypoints_val2017.json:对应人体关键点检测的验证集标注文件夹

四、读取COCO数据集的JSON

import json
 
labels =json.load(open("../annotations_trainval2017/annotations/instances_train2017.json","r"))
print(labels)

直接打印的话，打印不全，同时格式很乱，所以使用debug。

其中：labels中有5个字典：分别是info、licenses、Images、 annotations、categories。

4.1、info

这个字典包含了关于数据集的基本信息。

description : 数据集的描述，这里是 "COCO 2017 Dataset"。

url : 数据集的URL链接，即官网地址，这里是 "https://cocodataset.org/"。

version : 数据集的版本号，这里是 "1.0"。

year : 数据集创建的年份，这里是 2017。

contributor : 数据集的贡献者，这里是 "COCO Consortium"。

date_created : 数据集创建的日期，这里是 "2017/09/01"。

4.2、licenses

这个字典列表包含了数据集所用到的不同许可证的信息。

每个字典表示一种许可证，包含以下键：

id : 许可证的唯一标识符。

name : 许可证的名称。

url : 许可证的详细信息链接。

例如： id: 1 , name: Attribution-NonCommercial-ShareAlike License 代表此许可证。

4.3、images

这个字典列表包含了数据集中所有图像的信息。

每个字典表示一张图像，包含以下键：

id : 图像的唯一标识符。

coco_url : 图像的COCO数据集URL。

其他可能包含的信息如文件名、高度、宽度等。

4.4、annotations

这个字典列表包含了数据集中所有标注的信息。

每个字典表示一个标注，包含以下键：

id : 标注的唯一标识符。

image_id : 该标注所属图像的唯一标识符。

category_id : 该标注所属类别的唯一标识符（91 stuff categories的索引）。

area : 标注区域的面积。

bbox : 标注的边界框（bounding box），通常用一个四元组表示（x, y, width, height）。

segmentation : 分割标注的信息，通常是一个多边形的点集。

其他标注信息如分数（score）、关键点（keypoints）等。

4.5、categories

这个字典列表包含了数据集中所有类别的信息（91 stuff categories，使用 80 object categories时需要映射）。

每个字典表示一个类别，包含以下键：

id : 类别的唯一标识符。

name : 类别的名称（如 "person", "bicycle" 等）。

supercategory : 类别的上一级分类（超类）。

例如：

id: 1 , name: person , supercategory: person 代表 "person" 类别。

五、使用pycocotools读取COCO数据集

5.1、安装pycocotools

python -m pip install pycocotools-windows==2.0.0.2  -i https://pypi.tuna.tsinghua.edu.cn/simple/

5.2、读取COCO数据集并显示目标检测的第一张

import os
import json
from PIL import Image, ImageDraw
from pycocotools.coco import COCO

# COCO数据集的路径
annotation_path = "./instances_val2017.json"
img_path = "./val2017/val2017"

# 加载COCO数据集，打断点
coco = COCO(annotation_path)
# 查看5000张图像

# 获取所有图像的ID
img_ids = coco.getImgIds()
# 看到所有5000张图像的索引

# 处理前5张图像
for img_id in img_ids[:1]:
    # 获取图像信息，可以看到397133这章图片的信息
    img_info = coco.loadImgs(img_id)[0]
    img_file = os.path.join(img_path, img_info['file_name'])

    # 打开图像
    img = Image.open(img_file)
    draw = ImageDraw.Draw(img)

    # 获取该图像的所有标注
    # getAnnIds 函数可以接受多个参数，例如 imgIds、catIds 和 areaRng，以便根据图像ID、类别ID或面积范围来筛选标注。
    # 这个函数会返回一个标注ID列表，这些标注ID对应于指定图像ID的所有标注。
    ann_ids = coco.getAnnIds(imgIds=img_id)
    anns = coco.loadAnns(ann_ids)

    for ann in anns:
        # 获取类别名称
        category_id = ann['category_id']
        category_name = coco.loadCats(category_id)[0]['name']

        # 获取边界框
        bbox = ann['bbox']
        x, y, w, h = bbox

        # 绘制边界框
        draw.rectangle([x, y, x + w, y + h], outline="red", width=2)

        # 绘制类别名称
        draw.text((x, y - 10), category_name, fill="red")

    # 显示图像
    img.show()