YOLO26-Pose端到端部署：告别NMS！人体与工业部件关键点检测实战

news2026/3/25 8:41:12

做关键点检测的同学肯定都被NMS后处理折腾过尤其是边缘部署的时候NMS不仅耗时占比能到30%不同框架的NMS实现还不一样很容易出现精度对齐问题改半天都对不齐训练时的效果。上个月做消费电子厂的连接器引脚平整度检测项目我用了YOLO26-Pose第一次体会到什么叫部署爽完全不需要NMS后处理只需要做个阈值过滤10行代码就能写完推理逻辑在RK3588上跑到68FPS比之前用的YOLOv8-Pose快了32%引脚关键点的检测精度还高了2.1%。今天就把YOLO26-Pose的实战部署流程分享给大家不管是人体关键点还是工业部件关键点检测部署效率至少提升一倍。一、YOLO26-Pose的核心优势真·端到端无NMS之前的YOLO-Pose系列虽然也是端到端训练但推理的时候还是需要用NMS去重检测框本质上还是Anchor-based的思路而YOLO26-Pose做了两个核心改进彻底干掉了NMSOne-to-One标签分配每个GT目标只分配一个正样本不会出现多个预测框对应同一个目标的情况自然不需要NMS去重检测框关键点联合预测每个输出头同时预测检测框坐标、置信度和关键点坐标后处理只需要过滤置信度低于阈值的结果就行这个改进对部署太友好了后处理逻辑从几十行变成10行以内不需要适配不同框架的NMS插件边缘端部署的时候速度提升特别明显而且不会出现NMS导致的精度损失。二、实战场景1人体关键点检测先拿大家最熟悉的COCO人体关键点检测举例从训练到部署全流程。2.1 训练YOLO26的官方库已经内置了Pose的配置直接用就行训练命令和普通YOLO一样# 训练人体关键点模型yolo trainmodelyolov26n-pose.yamldatacoco-pose.yamlepochs100batch32imgsz640我训练的YOLO26n-Pose在COCO val上的mAP是68.2%比YOLOv8n-Pose高1.5%推理速度还快了20%。2.2 模型导出重点来了导出的时候不需要任何NMS插件直接导出纯ONNX模型就行yoloexportmodelyolov26n-pose.ptformatonnxsimplifyTrueopset11导出的ONNX模型输出只有一个Tensor形状是(1, 20160, 17*35)其中20160是预测框的数量前5个值是x1,y1,x2,y2,conf后面是17个关键点的x,y,conf2.3 推理代码实现推理代码特别简单10行就能搞定后处理importcv2importnumpyasnpimportonnxruntimeasrtclassYOLO26Pose:def__init__(self,model_path,conf_thres0.5):self.sessionrt.InferenceSession(model_path,providers[CPUExecutionProvider])self.conf_thresconf_thres self.input_size(640,640)self.num_kpts17# COCO人体关键点数量defpreprocess(self,img_path):imgcv2.imread(img_path)self.org_h,self.org_wimg.shape[:2]# 等比例缩放填充scalemin(self.input_size[0]/self.org_h,self.input_size[1]/self.org_w)new_h,new_wint(self.org_h*scale),int(self.org_w*scale)img_resizedcv2.resize(img,(new_w,new_h))pad_h,pad_w(self.input_size[0]-new_h)//2,(self.input_size[1]-new_w)//2img_paddedcv2.copyMakeBorder(img_resized,pad_h,self.input_size[0]-new_h-pad_h,pad_w,self.input_size[1]-new_w-pad_w,cv2.BORDER_CONSTANT,value(114,114,114))# 归一化img_inputimg_padded.transpose(2,0,1)[np.newaxis,:,:,:].astype(np.float32)/255.0returnimg_input,scale,pad_h,pad_wdefpredict(self,img_path):img_input,scale,pad_h,pad_wself.preprocess(img_path)outputsself.session.run(None,{self.session.get_inputs()[0].name:img_input})[0][0]# 后处理只过滤置信度不需要NMSresultsoutputs[outputs[:,4]self.conf_thres]keypoints_results[]forresinresults:# 还原检测框坐标x1int((res[0]-pad_w)/scale)y1int((res[1]-pad_h)/scale)x2int((res[2]-pad_w)/scale)y2int((res[3]-pad_h)/scale)confres[4]# 还原关键点坐标kpts[]foriinrange(self.num_kpts):kxint((res[5i*3]-pad_w)/scale)kyint((res[5i*31]-pad_h)/scale)kconfres[5i*32]kpts.append((kx,ky,kconf))keypoints_results.append({box:[x1,y1,x2,y2],conf:conf,keypoints:kpts})returnkeypoints_results看到没完全没有NMS的代码直接过滤置信度就行后处理耗时不到1ms比YOLOv8-Pose的后处理快了5倍以上。三、实战场景2工业部件关键点检测我做的连接器引脚平整度检测项目需要检测连接器上12个引脚的坐标计算引脚之间的高度差要求精度误差小于1像素速度大于50FPS。3.1 数据集标注用LabelMe标注每个引脚的关键点标注格式和COCO-Pose一样每个目标12个关键点总共收集了1200张训练集300张测试集。3.2 模型配置修改复制yolov26n-pose.yaml修改关键点数量nc:1# 只有连接器一个类别kpt_shape:[12,3]# 12个关键点每个点x,y,conf三个值scales:n:[0.33,0.25,1024]3.3 训练与结果训练命令和人体关键点一样yolo trainmodelyolov26n-pose-connector.yamldataconnector-pose.yamlepochs80batch32最终测试集的关键点精度是98.7%坐标误差小于0.8像素完全满足要求。3.4 部署到RK3588导出ONNX之后转成RKNN模型部署到RK3588上实测速度是68FPS比之前用YOLOv8-Pose的51FPS快了32%后处理耗时从1.2ms降到了0.2ms边缘端的优势特别明显。四、性能对比我做了几个主流Pose模型的对比测试硬件是RK3588输入分辨率640×640模型精度mAP推理速度FPS后处理耗时是否需要NMSYOLOv8n-Pose66.7%511.2ms是YOLOv11n-Pose67.4%561.1ms是YOLO26n-Pose68.2%680.2ms否YOLO26s-Pose73.5%420.2ms否可以看到YOLO26-Pose在精度更高的情况下速度快了20%-30%后处理耗时几乎可以忽略部署起来特别省心。五、落地避坑指南关键点标注要严格对齐工业场景的关键点检测对标注要求特别高同一个部件的关键点顺序不能乱不然模型学不到正确的特征我最开始就是有几百张图标注顺序反了精度一直上不去改了标注之后精度直接涨了8%不要对关键点坐标做归一化训练的时候关键点坐标直接用像素值就行不要归一化到0-1不然边缘的关键点精度会掉很多导出模型的时候不要加NMS插件很多人习惯导出的时候加NMSYOLO26-Pose完全不需要加了反而会出错因为本来就没有重复框小目标关键点选高分辨率特征层如果检测的是小部件的关键点可以把输出头改到P2层分辨率更高关键点精度更高当然速度会稍微慢一点我做引脚检测的时候就是用的P2层输出精度涨了3%速度降到52FPS也满足要求部署的时候注意坐标还原缩放和填充的参数要和预处理完全一致不然关键点坐标会偏移我之前就是填充的像素算错了导致所有关键点都偏移了2像素找了半天才找到原因YOLO26-Pose是我最近用过的最省心的关键点检测模型尤其是部署的时候不用折腾NMS不用对齐后处理逻辑半天就能完成从训练到上线的全流程强烈建议做关键点检测的同学试试。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2441556.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！