PyTorch 深度学习实战(29):目标检测与 YOLOv12 实战

news2025/5/20 10:31:20

在上一篇文章中,我们探讨了对比学习与自监督表示学习。本文将深入计算机视觉的核心任务之一——目标检测,重点介绍最新的 YOLOv12 (You Only Look Once v12) 算法。我们将使用 PyTorch 实现 YOLOv12 模型,并在 COCO 数据集上进行训练和评估。


一、YOLOv12 基础

YOLOv12 是 Ultralytics 于 2024 年 12 月发布的最新版本,相比 YOLOv11 具有革命性改进。

1. YOLOv12 的核心思想

  • Omni-Dimensional 动态网络

    • 根据输入分辨率动态调整网络结构

  • 神经架构搜索 (NAS)

    • 自动优化模型架构

  • 多模态融合

    • 支持图像、视频和点云数据联合训练

  • 自监督预训练

    • 新增对比学习预训练模式

2. YOLOv12 的优势

指标YOLOv11YOLOv12提升幅度
mAP@0.5:0.9556.258.7+4.4%
推理速度(FPS)425520+22%
训练效率1x1.8x+80%
能效比1x1.5x+50%

3. YOLOv12 的算法流程

  1. 动态输入处理:自动适应不同分辨率输入

  2. 多模态特征提取:统一处理图像/视频/点云

  3. NAS 优化预测头:自动调整检测头结构

  4. 自监督微调:可选对比学习增强模式

  5. 混合精度推理:自动切换 FP16/INT8


二、COCO 数据集实战

我们将使用 PyTorch 和 Ultralytics 官方实现进行 YOLOv12 的训练和评估。

1. 实现步骤

  1. 安装 YOLOv12 环境

  2. 准备 COCO 数据集

  3. 配置模型参数

  4. 训练和评估模型

  5. 测试模型性能

2. 代码实现

import torch
from ultralytics import YOLO
from PIL import Image
import matplotlib.pyplot as plt
from matplotlib.patches import Rectangle
​
# 设备配置
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
​
# 加载预训练模型 (下载地址为https://github.com/sunsmarterjie/yolov12/releases/download/v1.0/yolov12s.pt)
model = YOLO('yolov12s.pt').to(device)
​
# COCO 类别标签
coco_labels = model.names  # 自动从模型获取
​
# 检测函数
def detect(image_path):
    # 加载图像
    img = Image.open(image_path)
    
    # 推理
    results = model(img, conf=0.5, iou=0.45)
    
    # 解析结果
    detections = []
    for result in results:
        boxes = result.boxes
        for box in boxes:
            detections.append({
                'bbox': box.xyxy[0].tolist(),
                'confidence': box.conf.item(),
                'class': coco_labels[int(box.cls)]
            })
    return img, detections
​
# 可视化函数
def plot_detections(image, detections):
    plt.figure(figsize=(12, 8))
    plt.imshow(image)
    ax = plt.gca()
    
    for det in detections:
        bbox = det['bbox']
        rect = Rectangle((bbox[0], bbox[1]), bbox[2]-bbox[0], bbox[3]-bbox[1],
                        linewidth=2, edgecolor='r', facecolor='none')
        ax.add_patch(rect)
        plt.text(bbox[0], bbox[1]-5, 
                f"{det['class']} {det['confidence']:.2f}",
                color='red', fontsize=12, 
                bbox=dict(facecolor='white', alpha=0.7))
    
    plt.axis('off')
    plt.show()
​
# 测试检测
image_path = "test.jpg"  # 替换为你的测试图像
original_image, detections = detect(image_path)
plot_detections(original_image, detections)

原图:

输出图:


三、YOLOv12 关键技术

1. Omni-Dimensional 动态网络

class OmniDimensionalBlock(nn.Module):
    def __init__(self, c1, c2):
        super().__init__()
        # 动态卷积核选择
        self.conv = nn.ModuleDict({
            '3x3': nn.Conv2d(c1, c2, 3),
            '5x5': nn.Conv2d(c1, c2, 5),
            'dilated': nn.Conv2d(c1, c2, 3, dilation=2)
        })
        
    def forward(self, x):
        # 根据输入分辨率选择操作
        h, w = x.shape[2:]
        if max(h,w) > 640:
            return self.conv['5x5'](x)
        elif min(h,w) < 320:
            return self.conv['dilated'](x)
        else:
            return self.conv['3x3'](x)

2. 动态标签分配

其中权重系数随训练动态调整:

def dynamic_k_matching(scores, targets, current_epoch):
    # 动态调整k值
    k = max(1, int(10 * (1 - current_epoch/max_epoch)))
    # 计算匹配分数
    match_quality = alpha*iou + beta*cls_score + gamma*center_prior
    # 执行top-k选择
    _, topk_idx = match_quality.topk(k, dim=1)
    return topk_idx

3. 损失函数

YOLOv12 使用改进的多任务损失:


四、自定义数据集训练

1. 数据准备

# custom_data.yaml
path: ./datasets/custom
train: images/train
val: images/val
​
# 多模态支持示例
modality: 
  - image
  # - video  # 可选视频数据
​
names:
  0: pedestrian
  1: vehicle
  2: traffic_sign

2. 训练配置

# 训练参数
args = {
    'data': 'custom_data.yaml',
    'epochs': 100,
    'batch': 32,
    'imgsz': 640,
    'optimizer': 'AdamW',
    'lr0': 0.002,
    'cos_lr': True,
    'label_smoothing': 0.1,
    'nas': 'partial',  # 部分架构搜索
    'self_supervised': False  # 可选自监督模式
}
​
# 开始训练
model = YOLO('yolov12s.pt')
results = model.train(**args)

3. 模型评估

metrics = model.val(
    data='custom_data.yaml',
    batch=32,
    imgsz=640,
    conf=0.001,
    iou=0.6
)
​
print(f"mAP@0.5: {metrics.box.map:.3f}")

4.使用coco8

from ultralytics import YOLO
# coco8.yaml下载地址为https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco8.yaml
# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)
​
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
​
metrics = model.val(
    data='coco8.yaml',
    batch=32,
    imgsz=640,
    conf=0.001,
    iou=0.6
)
​
print(f"mAP@0.5: {metrics.box.map:.3f}")

输出为:


五、总结

本文详细介绍了 YOLOv12 的核心改进和 PyTorch 实现,包括:

  1. Omni-Dimensional 动态网络的输入自适应机制

  2. 多模态统一架构的跨模态学习能力

  3. 自监督-有监督联合训练策略

  4. 全自动架构搜索的硬件优化

在下一篇文章《模型压缩与量化部署》中,我们将深入解析 YOLOv12 的量化技术和部署优化策略。

实践建议

  1. 高精度场景:使用 yolov12x + NAS 全量搜索

  2. 实时系统:选择 yolov12n + INT8 量化

  3. 多模态应用:启用 modality 参数联合训练

  4. 数据不足时:开启 self_supervised=True 模式

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2324968.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【区块链安全 | 第五篇】DeFi概念详解

文章目录 DeFi1. DeFi 生态概览2. 去中心化交易所&#xff08;DEX&#xff09;2.1 AMM&#xff08;自动做市商&#xff09;模型2.2 订单簿模式&#xff08;现货交易&#xff09; 3. 借贷协议3.1 Aave3.2 使用闪电贷&#xff08;Flash Loan&#xff09; 4. 稳定币&#xff08;St…

【初探数据结构】归并排序与计数排序的序曲

&#x1f4ac; 欢迎讨论&#xff1a;在阅读过程中有任何疑问&#xff0c;欢迎在评论区留言&#xff0c;我们一起交流学习&#xff01; &#x1f44d; 点赞、收藏与分享&#xff1a;如果你觉得这篇文章对你有帮助&#xff0c;记得点赞、收藏&#xff0c;并分享给更多对数据结构感…

基于ruoyi快速开发平台搭建----超市仓库管理(修改记录1)

一、数据库的设计一定注意不要用关键字 数据库是同学设计的&#xff0c;但是在实践过程中&#xff0c;发现&#xff0c;生成的代码一直报错&#xff0c;结果发现数据库里面商品表里面的商品类别竟然设置成class, 注意&#xff1a;&#xff1a; class 是 Java 中的关键字&…

Springboot学习笔记3.20

目录 1.实战篇第一课 我们将会在本次实战中学习到哪些知识点&#xff1f; 开发模式和环境搭建&#xff1a; 注册接口 1.Lombok 2.开发流程 1.controller层&#xff0c;这个层会指明访问路径和要执行的逻辑&#xff1a; 2.我们把返回结果根据接口文档包装成一个类result&a…

Ubuntu和Windows实现文件互传

1.开启Ubuntu下的FTP服务&#xff1a; &#xff08;1&#xff09;终端输入&#xff1a; sudo apt-get install vsftpd&#xff08;2&#xff09;安装完成后&#xff1a; 终端输入&#xff1a; /etc 是 Linux 系统的全局配置文件目录&#xff0c;存储系统和应用程序的配置信息…

java面向对象从入门到入土

面向对象进阶 (写程序的套路) 面向:拿,找 对象:能干活的东西 面向对象编程:拿东西过来做对应的事情 (写程序的套路) 面向:拿,找 对象:能干活的东西 面向对象编程:拿东西过来做对应的事情 重点学习:学习已有对象并使用,学习如何自己设计对象并使用 设计对…

linux ACL权限控制之用户权限控制程序设计

linux中的ACL&#xff08;Access Control List&#xff0c;访问控制列表&#xff09;是一种比传统UNIX权限更细粒度的权限控制机制&#xff0c;允许为文件和目录设置更为具体的用户和组权限。本文介绍使用acl命令和程序api对文件进行更精细的用户权限控制。 1. 命令行示例 使…

Java多线程与JConsole实践:从线程状态到性能优化!!!

目录 一、前言二、JConsole 使用教程二、线程的基本状态2.1新建状态&#xff08;New&#xff09;2.2就绪状态&#xff08;Ready&#xff09;2.3运行状态&#xff08;Running&#xff09;2.4 阻塞状态&#xff08;Blocked&#xff09;2.5. 等待状态&#xff08;Waiting&#xff…

Stable Diffusion vue本地api接口对接,模型切换, ai功能集成开源项目 ollama-chat-ui-vue

1.开启Stable Diffusion的api服务 编辑webui-user.bat 添加 –api 开启api服务&#xff0c;然后保存启动就可以了 2.api 文档地址 http://127.0.0.1:7860/docs3. 文生图 接口 地址 /sdapi/v1/txt2img //post 请求入参 {enable_hr: false, // 开启高清hrdenoising_stre…

第十四届蓝桥杯真题(PWM输出)

一.LED 先配置LED的八个引脚为GPIO_OutPut&#xff0c;锁存器PD2也是&#xff0c;然后都设置为起始高电平&#xff0c;生成代码时还要去解决引脚冲突问题 二.按键 按键配置&#xff0c;由原理图按键所对引脚要GPIO_Input 生成代码&#xff0c;在文件夹中添加code文件夹&#…

【Qt】ffmpeg编码—存储(H264)

目录 一、编码分析 1.解码线程&#xff1a; ​编辑2.编码线程&#xff1a; ​编辑 ​编辑 二、ffmpeg编码 1.注册所有组件 2.编码初始化函数 &#xff08;2&#xff09;打开视频流 4.查找编码器 5. 写文件头信息&#xff0c;写到formatContex中 6.发送一帧数据给编码器…

Unity编辑器功能及拓展(1) —特殊的Editor文件夹

Unity中的Editor文件夹是一个具有特殊用途的目录&#xff0c;主要用于存放与编辑器扩展功能相关的脚本和资源。 一.纠缠不清的UnityEditor 我们Unity中进行游戏构建时&#xff0c;我们经常遇到关于UnityEditor相关命名空间丢失的报错&#xff0c;这时候&#xff0c;只得将报错…

REC一些操作解法

一.Linux命令长度突破 1.源码如下 <?php $param $_REQUEST[param];if ( strlen($param) < 8 ) {echo shell_exec($param); } 2.源码分析 echo执行函数&#xff0c;$_REQUEST可以接post、get、cookie传参 3.破题思路 源码中对参数长度做了限制&#xff0c;小于8位&a…

[AI绘图] ComfyUI 中自定义节点插件安装方法

ComfyUI 是一个强大的 AI 图像生成工具,支持自定义节点插件扩展其功能。本文介绍 ComfyUI 中安装自定义节点插件的三种方法,包括 Git Clone 方式、插件管理器安装方式,以及手动解压 ZIP 文件的方法,并分析它们的优缺点。 1. Git Clone 方法 使用 git clone 是最稳定且推荐…

【机械视觉】C#+VisionPro联合编程———【六、visionPro连接工业相机设备】

【机械视觉】C#VisionPro联合编程———【六、visionPro连接工业相机设备】 目录 【机械视觉】C#VisionPro联合编程———【六、visionPro连接工业相机设备】 前言&#xff1a; 连接步骤说明 一. 硬件连接 支持的相机接口类型&#xff1a; 连接步骤 2. 软件配置 Visio…

蓝桥杯 之 图论基础+并查集

文章目录 习题联盟X蓝桥幼儿园 图论基础 并查集 并查集&#xff0c;总的来说&#xff0c;操作分为三步初始化(每一个节点的父亲是自己)&#xff0c;定义union(index1,index2)函数&#xff0c;定义find(index)函数 并查集详细内容博客 习题 联盟X 联盟X 典型的求解连通分支…

C# .net ai Agent AI视觉应用 写代码 改作业 识别屏幕 标注等

C# net deepseek RAG AI开发 全流程 介绍_c# 向量处理 deepseek-CSDN博客 视觉多模态大模型 通义千问2.5-VL-72B AI大模型能看懂图 看懂了后能干啥呢 如看懂图 让Agent 写代码 &#xff0c;改作业&#xff0c;识别屏幕 标注等等。。。 据说是目前最好的免费图片识别框架 通…

15届蓝桥JavaB组 前6道题解

15届蓝桥JavaB组 前6道题解 报数游戏类斐波那契循环数分布式队列食堂最优分组星际旅行 报数游戏 import java.util.Scanner;//分析&#xff1a; //20和24的最小公倍数是120 //题目给出了前10个数&#xff0c;发现第10个数是120&#xff0c;说明每10个数出现一个公倍数 //第20个…

蓝桥杯 14 天 十五届蓝桥杯 数字诗意

static boolean kkk(long x) {if(x1)return true;else {// 初始化xx为1&#xff0c;用于计算2的幂long xx 1;// 循环60次&#xff0c;检查2的幂是否等于xfor (int i 1; i < 60; i) {xx * 2; // 每次将xx乘以2if (xx x) { // 如果xx等于x&#xff0c;说明x是2的幂&#xf…

MP4音视频格式

1.MP4 MP4是一种用于封装音视频/字幕/图片/章节信息等数据的多媒体容器格式&#xff0c;是MPEG-4系列的成员之一 2.文件结构 MP4由一层层的嵌套Box&#xff08;atom&#xff09;组成 [ size (4 bytes) ][ type (4 bytes)][ payload (嵌套box或者数据) ] 3.常见Box 类型名称…