人工智能|YOLOv1的简单介绍

news2026/4/26 5:19:19

欢迎来到人工智能的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年4月21日✉️希望可以和大家一起完成进阶之路作者水平很有限如果发现错误请留言轰炸哦万分感谢目录YOLO1是怎么进行目标识别的呐网络结构层中心点和边界框的坐标数值YOLO1是怎么进行目标识别的呐Grid 整体整张网格7×7 网格Grid cell 网格单元最标准BBOXBounding Box 边界框比如我们有一张448*448的图片它会把这张图片划分成7*7的网格每个网格都叫做一个Grid cell网格单元。YOLO会检测这张图片中有没有东西比如这张图片中有一只小狗一个自行车一辆汽车。比如YOLO识别到它们了它们的中心点就会落在一个网格里。YOLO会根据中心点再检测出一个边界框。这个边界框就叫做BBOX。网络结构层输入图片448×448×3RGBBackbone骨干网络就是多个卷积层的部分。Neck颈部网络在YOLOV1里面可以把它理解成全连接网络。head检测头就是最后7*7*30的输出就可以啦。输出是7*7*30的矩阵我们首先看一下最后的部分最后是一个7*7*1024的输出然后把它展平。进入只有两层的全连接网络然后把输出的1470的向量变成为7*7*30的矩阵。S7就对应图片的7*749个网格30就是每个网格都是30维的向量。前 10 个数值分为两组每组分别对应一个边界框的中心点坐标、以及宽高、用来表示检测框的位置。每组末尾都有一个置信度代表该边界框存在物体的概率。后面 20 个数值为 20 个类别的概率数据集一共包含 20 个目标类别。每个 Grid cell 预测2 个 BBOX可以同时检测同一个格子里的两个物体降低漏检率。我们先来看标签数据的设定方式。当小狗的中心点落在某个网格单元中时我们就需要为该网格对应的 30 维向量打上对应的标签。其余不包含物体中心点的网格单元全部置为负样本标签以此实现 YOLOv1 中心点归属网格的检测规则。中心点和边界框的坐标数值YOLOv1 在数据集标注阶段就是按原始图片的真实像素尺寸来标注物体位置绝对坐标。图片的左上角是定位原点00假设原始图片的大小是800 × 600。你标注工具LabelImg/VOC 格式打的标签是x_abs, y_abs, w_abs, h_abs。这是完全按 800×600 的像素来的。YOLOv1 网络要求输入是 448×448 所以图片会被缩放到 448×448。坐标必须一起缩放不然位置就错位了。所以要把像素坐标一起归一化到 0~1。直接除去图片的宽和高就可以啦。相对坐标到网络偏移YOLOv1会在数据预处理阶段会用相对位置算出中心点落在那个网格中。然后再计算中心点相对于这个网络的偏移量。此时的下x,y是相对于该网格的偏移量。wh是相对于整张图片的偏移量。预测阶段符号含义x^,y^网络预测输出当前网格内部相对偏移量0~1就是你上一张图里训练标签的、gridx,gridy物体中心点所在的网格编号0~6训练阶段提前确定w^,h^网络预测输出整张图全局相对宽高0~1训练阶段直接归一化得到x_absolute,y_absolute最终还原448×448 输入图片上物体中心点绝对像素坐标w_absolute,h_absolute最终还原448×448 输入图片上框的绝对像素宽高YOLOv1 固定输入尺寸参数448÷764推理阶段实时推理依然不是原图实时摄像头原始大图任意尺寸 ↓ 【缩放 Resize】网络固定输入 448×448 ↓ 【7×7 网格划分网络前向推理】输出网格内部相对偏移量 x^, y^, w^, h^ ↓ 【推理解码公式计算】 448×448 缩放图上绝对像素框 ↓ 【比例映射还原】原始大图上最终检测显示框

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2542191.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！