目标检测：YOLOv12训练自己的数据集，手把手教学一看就会

news2026/5/11 13:14:26

目录1. 环境配置2. 数据集2.1 网上搜索公开数据集2.1.1 搜索引擎2.1.2 Kaggle2.1.3 Roboflow2.2 自制数据集2.2.1 Labelimg安装2.2.2 Labelimg使用2.3 数据集转换及划分2.3.1 数据集VOC格式转yolo格式2.3.2 数据集划分3. 训练模型3.1 创建data.yaml3.2 训练模型4. 模型测试5. 可视化界面训练自己的数据集分为4部分先配置环境再获取制作自己的数据集然后修改默认配置训练最后验证训练结果附带可视化界面。YOLOv12为YOLOv11的改进版本训练流程与YOLOv11基本一致引入FlashAttention但是使用了30系及以下显卡则训练时默认不使用FlashAttention。如果有其他目标检测的数据集可以直接拿来用从第3训练模型开始看新手小白0基础建议一步一步跟着来哪里看不明白的或者遇到哪有问题可以发到评论区交流我看到后都会及时回答~1. 环境配置在训练YOLOv12模型前环境必须配置完成还不会配置环境的可以看我的这篇博客目标检测YOLOv12环境配置超详细适合0基础纯小白-CSDN博客文章浏览阅读2k次点赞32次收藏37次。小白也可以看懂的YOLOv12教程YOLOv12 是 YOLO 系列中首个打破传统基于卷积神经网络CNN方法的模型它通过将注意力机制直接集成到目标检测过程中实现了这一突破。因此YOLOv12需要额外配置FlashAttention此前的YOLO环境均不可用需要按照最新的教程配置。此外30系显卡以前的架构不支持较新的FlashAttention2.x只能通过更换显卡解决。_yolov12https://blog.csdn.net/qq_67105081/article/details/146316615?spm1001.2014.3001.5502环境配置完之后就可以使用自己的数据集训练因此需要获取数据集。点击下载训练源码夸克网盘下载建议先全部转存提前下载若有需要下载的资源失效可至公众号获取百度盘链接下载。YOLOv12网络结构图论文必备无水印图可微信公众号-笑脸惹桃花回复“1212” 获取。2. 数据集数据集可以使用网上公开的跟自己研究相契合的数据集或者是搜索/拍摄自己研究所需要的图片进行标注制作成数据集这里两种方法都详细介绍一下比如这里做一个安全帽检测的研究。2.1 网上搜索公开数据集使用网上公开的数据集可供寻找的网站也有很多这里仅介绍我使用过效果不错的网站2.1.1 搜索引擎最基础的搜索方式需要做什么方面的研究就在上面搜索2.1.2 KaggleKaggle: Your Machine Learning and Data Science CommunityKaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.https://www.kaggle.com/在搜索框输入安全帽的英文因为是英文网站都需要翻译成英文后搜索Safety helmet 找不到结果可以多尝试不同的关键词搜索后就可以找到相关的内容点击datasets筛选数据集下载几个看一下数据集是否为目标检测的数据格式一般文件夹为JPEGImages和Annotations包含这两个就可以使用点进去查看相关数据是否符合要求点击download即可下载。2.1.3 RoboflowRoboflow Universe: Computer Vision DatasetsDownload free, open source datasets and pre-trained computer vision machine learning models.https://universe.roboflow.com/该网站非常适合获取目标检测数据集文件标注格式齐全非常推荐使用在搜索框输入安全帽的英文因为是英文网站都需要翻译成英文后搜索Safety helmet 找不到结果可以多尝试不同的关键词找到跟自己研究相关的点进去后可以看到关于数据集的介绍我们点击左侧的Datasat查看数据集。点击右侧Download Dataset下载该网站可自选下载格式我们选择Pascal VOC格式的格式转换起来也较为方便下载的数据一般会划分好训练验证测试集可以全部打乱重分也可以直接用划分好的。若是下载到分割数据集即json格式的标注可以看我的这篇文章转为txt深度学习数据集分割json文件转目标检测txt文件_json图像分割数据集格式-CSDN博客文章浏览阅读2.1k次点赞18次收藏40次。本文介绍了一种方法用于将包含多边形标注的JSON文件转换为文本文件以便于目标检测任务中使用矩形框形式的标注。作者通过Python脚本获取每个多边形的类别、坐标点信息并计算出框选区域然后保存为txt文件。https://blog.csdn.net/qq_67105081/article/details/138123877?spm1001.2014.3001.55022.2 自制数据集自制数据集需要先获取一定数量的目标图片可以拍摄或者下载图片足够之后使用标注工具Labelimg或者Labelme进行标注这里仅介绍Labelimg的使用。2.2.1 Labelimg安装使用Labelimg建议使用python3.10以下的环境这里创建一个python3.8的虚拟环境不会创建的可以去看我这篇博客文章。conda create -n labelimg python3.8这里创建完之后进入labelimg环境conda activate labelimg进入labelimg环境之后通过pip下载labelimg需要关闭加速软件pip install labelimg安装完成之后就可以使用2.2.2 Labelimg使用在使用labelimg之前需要准备好数据集存放位置这里推荐创建一个大文件夹为data里面有JPEGImages、Annotations和classes.txt其中JPEGImages文件夹里面放所有的图片Annotations文件夹是将会用来对标签文件存放classes.txt里存放所有的类别每种一行。classes.txt里存放所有的类别可以自己起名需要是英文如果有空格最好用下划线比如no_hat上述工作准备好之后在labelimg环境中cd到data目录下如果不是在c盘需要先输入其他盘符:例如D: 回车之后再输入cd文件路径接着输入以下命令打开labelimglabelimg JPEGImages classes.txt打开软件后可以看到左侧有很多按钮open dir是选择图片文件夹上面选过了点击change save dir 切换到Annotations目录之中点击save下面的图标切换到Pascal voc格式切换好之后点击软件上边的view将 Auto Save mode切换到下一张图会自动保存标签和Display Labels显示标注框和标签保持打开状态。常用快捷键A切换到上一张图片D切换到下一张图片W调出标注十字架del 删除标注框例如按下w调出标注十字架标注完成之后选择对应的类别这张图全部标注完后按d下一张所有图像标注完成后数据集即制作完成转换后的整体结构如下图。2.3 数据集转换及划分2.3.1 数据集VOC格式转yolo格式如何查看自己数据集格式打开Annotations文件夹如果看到文件后缀为.xml则为VOC格式如果文件后缀为.txt则为yolo格式后缀名看不到请搜索如何显示文件后缀名。yolov12训练需要转为yolo格式训练转换代码如下一般txt放在labels文件夹中。# 作者CSDN-笑脸惹桃花 https://blog.csdn.net/qq_67105081?typeblog # github:peng-xiaobai https://github.com/peng-xiaobai/Dataset-Conversion import os import xml.etree.ElementTree as ET # 定义类别顺序 categories [hat,nohat] category_to_index {category: index for index, category in enumerate(categories)} # 定义输入文件夹和输出文件夹 input_folder rf:\data\Annotations # 替换为实际的XML文件夹路径 output_folder rf:\data\labels # 替换为实际的输出TXT文件夹路径 # 确保输出文件夹存在 os.makedirs(output_folder, exist_okTrue) # 遍历输入文件夹中的所有XML文件 for filename in os.listdir(input_folder): if filename.endswith(.xml): xml_path os.path.join(input_folder, filename) # 解析XML文件 tree ET.parse(xml_path) root tree.getroot() # 提取图像的尺寸 size root.find(size) width int(size.find(width).text) height int(size.find(height).text) # 存储name和对应的归一化坐标 objects [] # 遍历XML中的object标签 for obj in root.findall(object): name obj.find(name).text if name in category_to_index: category_index category_to_index[name] else: continue # 如果name不在指定类别中跳过该object bndbox obj.find(bndbox) xmin int(bndbox.find(xmin).text) ymin int(bndbox.find(ymin).text) xmax int(bndbox.find(xmax).text) ymax int(bndbox.find(ymax).text) # 转换为中心点坐标和宽高 x_center (xmin xmax) / 2.0 y_center (ymin ymax) / 2.0 w xmax - xmin h ymax - ymin # 归一化 x x_center / width y y_center / height w w / width h h / height objects.append(f{category_index} {x} {y} {w} {h}) # 输出结果到对应的TXT文件 txt_filename os.path.splitext(filename)[0] .txt txt_path os.path.join(output_folder, txt_filename) with open(txt_path, w) as f: for obj in objects: f.write(obj \n)需要自行将类别替换这里顺序要记住文件夹也对应替换2.3.2 数据集划分训练自己的yolov12检测模型数据集需要划分为训练集、验证集和测试集这里提供一个参考代码,划分比例为721也可以按照自己的比例划分获取的数据集划分过了则不用重复划分。# 作者CSDN-笑脸惹桃花 https://blog.csdn.net/qq_67105081?typeblog # github:peng-xiaobai https://github.com/peng-xiaobai/Dataset-Conversion import os import shutil import random # random.seed(0) #随机种子可自选开启 def split_data(file_path, label_path, new_file_path, train_rate, val_rate, test_rate): images os.listdir(file_path) labels os.listdir(label_path) images_no_ext {os.path.splitext(image)[0]: image for image in images} labels_no_ext {os.path.splitext(label)[0]: label for label in labels} matched_data [(img, images_no_ext[img], labels_no_ext[img]) for img in images_no_ext if img in labels_no_ext] unmatched_images [img for img in images_no_ext if img not in labels_no_ext] unmatched_labels [label for label in labels_no_ext if label not in images_no_ext] if unmatched_images: print(未匹配的图片文件:) for img in unmatched_images: print(images_no_ext[img]) if unmatched_labels: print(未匹配的标签文件:) for label in unmatched_labels: print(labels_no_ext[label]) random.shuffle(matched_data) total len(matched_data) train_data matched_data[:int(train_rate * total)] val_data matched_data[int(train_rate * total):int((train_rate val_rate) * total)] test_data matched_data[int((train_rate val_rate) * total):] # 处理训练集 for img_name, img_file, label_file in train_data: old_img_path os.path.join(file_path, img_file) old_label_path os.path.join(label_path, label_file) new_img_dir os.path.join(new_file_path, train, images) new_label_dir os.path.join(new_file_path, train, labels) os.makedirs(new_img_dir, exist_okTrue) os.makedirs(new_label_dir, exist_okTrue) shutil.copy(old_img_path, os.path.join(new_img_dir, img_file)) shutil.copy(old_label_path, os.path.join(new_label_dir, label_file)) # 处理验证集 for img_name, img_file, label_file in val_data: old_img_path os.path.join(file_path, img_file) old_label_path os.path.join(label_path, label_file) new_img_dir os.path.join(new_file_path, val, images) new_label_dir os.path.join(new_file_path, val, labels) os.makedirs(new_img_dir, exist_okTrue) os.makedirs(new_label_dir, exist_okTrue) shutil.copy(old_img_path, os.path.join(new_img_dir, img_file)) shutil.copy(old_label_path, os.path.join(new_label_dir, label_file)) # 处理测试集 for img_name, img_file, label_file in test_data: old_img_path os.path.join(file_path, img_file) old_label_path os.path.join(label_path, label_file) new_img_dir os.path.join(new_file_path, test, images) new_label_dir os.path.join(new_file_path, test, labels) os.makedirs(new_img_dir, exist_okTrue) os.makedirs(new_label_dir, exist_okTrue) shutil.copy(old_img_path, os.path.join(new_img_dir, img_file)) shutil.copy(old_label_path, os.path.join(new_label_dir, label_file)) print(数据集已划分完成) if __name__ __main__: file_path rf:\data\JPEGImages # 图片文件夹 label_path rf:\data\labels # 标签文件夹 new_file_path rf:\VOCdevkit # 新数据存放位置 split_data(file_path, label_path, new_file_path, train_rate0.7, val_rate0.2, test_rate0.1)代码可以自动划分各种格式的图片及标签文件且无论图片及标签数量是否对应均会对应移动到相同的文件夹下同时给出出现差异的图片或标签文件名方便小白快速查找原因。划分完成之后数据集的准备工作就好了具体的目录结构如下图我们一般导入到imageslabels会自动寻找。3. 训练模型需要下载源码本文演示所用的安全帽检测数据集点此下载注意此数据集的两个标签分别为 person,hat 。https://github.com/sunsmarterjie/yolov12https://github.com/sunsmarterjie/yolov12点进github链接下载源代码也可以点击下载代码夸克网盘下载这里需要注意YOLOv12-v1.0不支持老显卡训练低于30系的显卡建议下载使用YOLOv12-main我已经都上传到网盘中了压缩包内附带yolov12n.pt、yolov12s.pt和yolov12m.pt预训练权重链接资源失效请评论区反馈看到会补或者至公众号下载常规使用yolov12n.pt即可。有了源码之后需要修改里面的参数导入自己的数据集。3.1 创建data.yaml使用pycharm打开yolov121-main文件夹在yolov12根目录下也就是本文所用的yolov12-main目录下创建一个新的data.yaml文件也可以是其他名字的例如hat.yaml文件文件名可以变但是后缀需要为.yaml内容如下文件夹路径分别修改为前边划分后数据集的路径。test可有可无train: f:/VOCdevkit/train/images # train images (relative to path) 128 images val: f:/VOCdevkit/val/images # val images (relative to path) 128 images test: f:/VOCdevkit/test/images nc: 2 # Classes names: [hat,nohat]其他路径和类别自己替换需要和上面数据集转换那里类别顺序一致。3.2 训练模型这是使用官方提供的预训练权重进行训练使用yolov12n.pt也可以使用yolov12s.pt模型大小nsmlx训练时长成倍增加。下载v1.0内的权重pt文件即可即可。下载完成之后放入yolov12-main根目录中之后就可以开始训练模型了下图为yolov12官方给出的Training我觉得并不是很好用因此做出了修改。创建一个yolov12_train.py文件内容如下import warnings warnings.filterwarnings(ignore) from ultralytics import YOLO if __name__ __main__: model YOLO(ultralytics/cfg/models/v12/yolov12n.yaml) model.load(yolov12n.pt) results model.train( datadata.yaml, #数据集配置文件的路径 epochs200, #训练轮次总数 batch16, #批量大小即单次输入多少图片训练 imgsz640, #训练图像尺寸 scale0.5, # S:0.9; M:0.9; L:0.9; X:0.9 #增益因子缩放图像模拟物体与摄像机的不同距离。 mosaic1.0, #默认值 mixup0.0, # S:0.05; M:0.15; L:0.15; X:0.2 #默认值 copy_paste0.1, # S:0.15; M:0.4; L:0.5; X:0.6 #分割标签进行复制和粘贴 device 0, #指定训练的计算设备无nvidia显卡则改为 cpu #以下为我添加的一些参数 optimizerSGD, #训练使用优化器可选 auto,SGD,Adam,AdamW 等 workers8, #加载数据的工作线程数 amp True, #True 或者 False, 解释为自动混合精度(AMP) 训练 cacheFalse # True 在内存中缓存数据集图像服务器推荐开启 )我使用ampFalse训练就会出现损失为nan结果全为0的情况有大佬知道原因可以告知一下。这里可以多试一些参数精度为0可能是参数没找到合适的。用哪个模型对应哪个yaml如果使用yolov12s.pt则对应yolov11s.yamlepochs是训练轮数可以由少变多看训练效果workers和batch根据电脑性能进行调整如果运行吃力则相应降低最好为2的n次方。无nvidia显卡则把device0修改为devicecpu 。也可以使用命令行执行训练yolo taskdetect modetrain modelyolov12n.yaml pretrainedyolov12n.pt datadata.yaml epochs200 imgsz640 device0 copy_paste0.1 optimizerSGD workers8 batch16 ampTrue cacheFalse训练过程如图耐心等待训练完成即可训练完成后会生成.pt权重文件及各类目标精度可以用来验证训练效果。训练模型过程中有任何报错可以发在评论区交流~4. 模型测试找到之前训练的结果保存路径创建一个yolov12_predict.py文件内容如下from ultralytics import YOLO # 加载训练好的模型改为自己的路径 model YOLO(runs/detect/train/weights/best.pt) #修改为训练好的路径 source test1.jpg #修改为自己的图片路径及文件名 # 运行推理并附加参数 model.predict(source, saveTrue)运行后就会得到预测模型结果或者使用命令行指令进行预测权重和图片路径自己修改。yolo predict modelruns/detect/train/weights/best.pt sourcetest1.jpg可以打开对应路径下查看预测的图片效果模型就训练好啦~测试集上推理模型精度代码如下可新增yolov12_val.py输入下方代码更改模型路径及数据集路径即可。import warnings warnings.filterwarnings(ignore) from ultralytics import YOLO if __name__ __main__: model YOLO(runs/detect/train/weights/best.pt) #修改为自己训练的模型路径 model.val(datadata.yaml, #修改为自己的数据集yaml文件 splittest, imgsz640, batch16, iou0.6, #阈值可以改 conf0.001, workers8, )运行后即出现测试集上各类别的精度及总体精度。YOLOv12自带了一个本地网页端的可视化可以通过输入运行根目录下app.py然后浏览器进入http://127.0.0.1:78605. 可视化界面上述网页端较为简陋很多同学的需求是制作出一个可视化界面ui作为系统来展示预测的效果这里我分享了两个简单的图片预测的界面导入模型权重文件和图片就可以进行预测并展示pyqt5写的可以参考这篇文章点击这里界面如下ultralytics各版本通用单文件即插即用。pyside6可以参考这篇文章或这篇文章效果如下免费的功能较为简单只有图片检测显示。写了一个进阶版的程序可以对图片视频和本地及云摄像头进行检测并展示pyside6和pyqt5界面如下。感兴趣可以通过公众号获取需要定制系统也可以联系我。遇到报错可以打开评论区交流。关注微信公众号快速联系我~

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2603493.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！