深度学习在计算机视觉领域的快速发展推动了目标检测算法的持续进步。作为实时检测框架的典型代表,
YOLO
系列凭借其高效性与准确性备受关注。本文提出一种基于多头自注意力机制(Multi-Head Self-Attention, MHSA
)增强的YOLOv11
主干网络结构,旨在提升模型在复杂场景下的目标特征表达与全局感知能力。通过在主干网络关键层级引入MHSA
模块,有效建模长距离依赖关系,增强语义信息融合效率。目标检测作为计算机视觉的核心任务,在智能监控、自动驾驶和图像检索等领域具有广泛应用。YOLO
系列模型凭借其端到端架构设计与高效推理能力,成为工业界与学术界的研究热点。YOLOv11
作为该系列的最新版本,通过优化检测头结构与特征提取方式,进一步提升了整体性能。然而,在面对遮挡、尺度变化、密集目标等复杂场景时,传统卷积神经网络在局部感受野与固定权重分配方面的局限性日益凸显。近年来,注意力机制在目标检测领域得到广泛应用,其中多头自注意力机制(MHSA
)因其出色的长程依赖关系捕捉能力,在图像分类、分割等任务中表现卓越。基于此,本文提出将MHSA
模块集成至YOLOv11
主干网络的关键阶段,构建具有更强语义表达能力的新型骨干结构,以进一步提升模型在高精度目标检测任务中的性能。