精读双模态视频融合论文系列十一|湖南大学原创 UAVD-Mamba 封神!可变形 Token+Mamba 跨模态融合碾压 !

news2026/4/28 2:06:13
本文定位无人机双模态检测顶刊级方案Mamba 融合新范式小目标 / 夜间 / 遮挡场景暴涨点 核心收益彻底解决传统 Vision Mamba 固定 Patch 缺陷基于可变形 Token 打造 Mamba 原生双模态检测框架DroneVehicle 数据集 mAP 直达 83.0%超基线 YOLOv11 3.4%超 SOTA OAFA 3.6%代码即插即用完美适配无人机航拍、夜间监控、交通管理等场景 核心创新矩阵DTMB可变形 Token Mamba 块自适应 Patch 适配不规则目标几何适配性拉满FFAR特征融合抗冗余模块交叉空间 交叉通道双注意力双模态互补性最大化Fusion Mamba原生双输入融合 Mamba 块解决模态错位与冗余问题DNMMamba 专属检测 Neck适配 YOLOv11 原生结构多尺度小目标检测能力暴涨。✅ 适配场景无人机 RGB-IR 双模态目标检测、航拍小目标检测、夜间车辆检测、遮挡目标识别、城市交通无人机巡检UAVD-Mamba: Deformable Token Fusion Vision Mamba for Multimodal UAV Detection前言无人机UAV目标检测作为低空经济的核心技术已广泛应用于交通管理、农业植保、应急救援、城市治理等领域。但在实际落地中无人机检测面临三大行业级痛点目标特性极端高空航拍下目标尺寸极小、形状不规则极易被树木、建筑遮挡传统检测器极易漏检、误检环境鲁棒性差单 RGB 模态受光照、夜间、雾霾影响极大单红外模态缺乏纹理细节单独使用均无法满足全场景检测需求多模态融合瓶颈现有 RGB-IR 双模态方法普遍存在模态错位、特征冗余、互补信息利用不充分的问题CNN 方法长距离依赖建模能力不足Transformer 方法计算量爆炸无法适配无人机端侧部署。Mamba 作为新一代线性复杂度序列模型凭借其高效的长距离建模能力和极低的计算开销在计算机视觉领域展现出巨大潜力尤其在多模态融合和小目标检测方向优势显著。但传统 Vision Mamba 存在致命缺陷采用固定尺寸的正方形 Patch 划分图像无法自适应调整 Patch 形状适配不规则目标导致 Token 信息完整性被破坏特征表征精度大幅下降完全无法适配无人机航拍中不规则、小尺寸的目标特性。基于此湖南大学团队原创提出UAVD-Mamba一套专为无人机 RGB-IR 双模态检测打造的 Mamba 原生框架彻底解决了传统 Vision Mamba 的固定 Patch 缺陷通过可变形 Token 生成、双模态 Mamba 融合、多尺度 Mamba 检测 Neck三大核心创新在 DroneVehicle 数据集上实现了 83.0% 的 mAP超基线 YOLOv11 3.4%超 CVPR 2024 SOTA OAFA 方法 3.6%同时实现了精度与效率的完美平衡。本文将从核心原理、模块拆解、完整复现代码、YOLO集成教程、实验结果、顶刊创新思路全维度解析 UAVD-Mamba全文干货无废话代码可直接复制运行适合本科毕设、硕士科研、工程落地全场景使用。一、UAVD-Mamba 整体框架核心逻辑UAVD-Mamba 是一套端到端双模态 Mamba 检测框架整体基于 YOLOv11 原生架构进行深度适配与创新完美保留了 YOLO 系列的高效性同时充分发挥了 Mamba 的长距离建模与多模态融合优势。整体框架分为四大核心阶段双模态输入预处理RGB-IR 图像对统一缩放至 640×640送入双流网络分别进行初始特征提取FFAR 特征融合抗冗余模块通过交叉增强空间注意力、双分支 DTMB、Fusion Mamba、交叉通道注意力实现双模态特征的互补增强与冗余过滤输出融合后的高质量特征多尺度 DTMB 模块堆叠 4 个不同尺度的 DTMB生成多尺度特征表征完美适配无人机航拍中的多尺度目标尤其强化小目标特征DNM Mamba 专属检测 NeckHead基于 YOLOv11 的 Neck 进行 Mamba 适配改造替换 C3K2 为 Mamba Block升级 SPPF 为 Mamba-SPPF最终送入 YOLOv11 检测头输出检测结果。核心设计亮点全链路 Mamba 原生设计从特征提取、双模态融合到多尺度 Neck全程基于 Mamba 架构打造而非简单的 “CNNMamba” 缝合最大化发挥了 Mamba 的序列建模优势同时针对无人机检测的不规则、小目标特性做了深度优化。二、核心模块深度解析附完整复现代码2.1 核心基础SingleMambaBlockUAVD-Mamba 的所有模块均基于 Vision Mamba 的双向 SS2DSelective State Space 2D机制构建核心是将二维图像特征展开为四个方向的序列通过 Mamba 的状态空间模型实现高效的长距离依赖建模相比 Transformer 的自注意力机制实现了线性复杂度的计算开销同时保留了全局建模能力。import torch import torch.nn as nn from mamba_ssm import Mamba from einops import rearrange class SingleMambaBlock(nn.Module): 视觉任务专用的单分支Mamba Block 输入输出形状均为 (B, C, H, W)可直接嵌入CNN/YOLO/MMDet框架 Args: dim (int): 输入/输出通道数 d_state (int): Mamba状态空间维度默认16 expand (float): Mamba内部通道扩展系数默认2 bimamba_type (str): 双向Mamba类型默认v6 use_norm (bool): 是否在Mamba内部使用Norm默认True def __init__(self, dim, d_state16, expand2, bimamba_typev6, use_normTrue): super().__init__() self.dim dim # 前置LayerNormVision Mamba标准配置 self.norm nn.LayerNorm(dim) # Mamba核心模块 self.mamba Mamba( d_modeldim, d_stated_state, expandexpand, bimamba_typebimamba_type, if_devide_outTrue, use_normuse_norm ) def forward(self, x): Args: x (torch.Tensor): 输入特征图形状 (B, C, H, W) Returns: torch.Tensor: 输出特征图形状 (B, C, H, W) b, c, h, w x.shape skip x # 残差连接 # -------------------------- # 1. 2D特征 - 序列 (B, C, H, W) - (B, H*W, C) # -------------------------- x_seq rearrange(x, b c h w - b (h w) c) # -------------------------- # 2. 前置LayerNorm Mamba前向 # -------------------------- x_seq self.norm(x_seq) x_seq self.mamba(x_seq) # -------------------------- # 3. 序列 - 2D特征 (B, H*W, C) - (B, C, H, W) # -------------------------- x_out rearrange(x_seq, b (h w) c - b c h w, hh, ww) # -------------------------- # 4. 残差连接 # -------------------------- return x_out skip2.2 核心创新一FFARFFAR 模块是 UAVD-Mamba 的双模态融合核心将交叉增强空间注意力、双分支 DTMB、Fusion Mamba Block、交叉通道注意力四大组件整合实现了双模态特征的互补增强 冗余过滤彻底解决了传统融合方法的模态错位、信息冗余问题。2.2.1 DTMBDTMB 是 UAVD-Mamba 的灵魂核心模块彻底解决了传统 Vision Mamba 固定 Patch 的缺陷核心创新是将普通卷积的 Normal Patch 与可变形卷积的 Adaptive Patch 融合生成可变形 Token作为 Mamba Block 的输入。核心原理双分支 Patch 生成通过普通卷积生成固定形状的 Normal Patch通过可变形卷积生成自适应形状的 Adaptive Patch两者相加融合为可变形 Token自适应几何适配可变形卷积能够根据目标形状动态调整采样点生成的 Adaptive Patch 可以完美适配无人机航拍中的不规则、遮挡目标保留完整的 Token 信息梯度友好设计采用逐元素相加的方式融合两个分支在保证特征提取有效性的同时高效控制计算复杂度优化梯度反向传播。2.2.2 交叉增强空间注意力传统双模态注意力机制通常采用互斥的权重分配方式而 UAVD-Mamba 提出的交叉增强空间注意力通过双模态空间权重互乘的方式实现了 RGB 与 IR 特征的相互增强而非相互抑制。2.2.3 交叉通道注意力传统通道注意力仅对单模态特征进行权重分配极易产生信息冗余。UAVD-Mamba 提出的交叉通道注意力通过自身通道权重加权、另一模态通道权重归一化的方式实现了双模态通道信息的互补过滤最大化保留有效特征抑制冗余噪声。import torch import torch.nn as nn import torch.nn.functional as F from mamba_ssm import Mamba from einops import rearrange # # 1. 基础依赖自动填充函数autopad # def autopad(k, pNone, d1): 自动计算填充值确保卷积输出尺寸与输入一致当 stride1 时 if p is None: p (k - 1) // 2 * d return p # # 2. 基础依赖可变形卷积 v2基于 torchvision # class DeformableConv2d(nn.Module): def __init__(self, inc, outc, kernel_size3, stride1, padding1, dilation1, groups1, biasTrue): super(DeformableConv2d, self).__init__() self.kernel_size kernel_size self.stride stride self.padding padding self.dilation dilation self.groups groups self.bias bias # 标准卷积权重 self.weight nn.Parameter(torch.Tensor(outc, inc, kernel_size, kernel_size)) if bias: self.bias_param nn.Parameter(torch.Tensor(outc)) else: self.register_parameter(bias_param, None) # 偏移量预测卷积 self.offset_conv nn.Conv2d(inc, 2 * kernel_size * kernel_size, kernel_size3, stridestride, padding1, biasFalse) # 调制权重预测卷积v2特性 self.mask_conv nn.Conv2d(inc, kernel_size * kernel_size, kernel_size3, stridestride, padding1, biasFalse) # 初始化参数 nn.init.kaiming_uniform_(self.weight, modefan_in, nonlinearityrelu) nn.init.constant_(self.offset_conv.weight, 0) nn.init.constant_(self.mask_conv.weight, 0) if self.bias_param is not None: nn.init.constant_(self.bias_param, 0) def forward(self, x): try: from torchvision.ops import deform_conv2d except ImportError: raise ImportError(请安装 torchvision: pip install torchvision) B, C, H, W x.shape # 1. 预测偏移量和调制权重 offset self.offset_conv(x) mask torch.sigmoid(self.mask_conv(x)) # 2. 执行可变形卷积 out deform_conv2d( inputx, offsetoffset, weightself.weight, biasself.bias_param, strideself.stride, paddingself.padding, dilationself.dilation, maskmask ) return out # # 3. 核心组件DConv标准卷积可变形卷积双分支融合 # class DConv(nn.Module): 双分支卷积融合模块标准卷积 可变形卷积 结合了标准卷积的稳定性与可变形卷积的几何自适应能力 def __init__(self, c1, c2, k1, s1, pNone, g1, actTrue): super().__init__() p autopad(k, p) # 可变形卷积分支 self.conv_d DeformableConv2d(c1, c2, kernel_sizek, strides, paddingp, groupsg, biasFalse) # 标准卷积分支 self.conv nn.Conv2d(c1, c2, k, s, p, groupsg, biasFalse) # 批归一化 self.bn nn.BatchNorm2d(c2) # 激活函数 self.act nn.SiLU() if act is True else (act if isinstance(act, nn.Module) else nn.Identity()) def forward(self, x): 训练时前向传播包含 BN return self.act(self.bn(self.conv(x) self.conv_d(x))) def forward_fuse(self, x): 推理时前向传播融合 BN提升推理速度 return self.act(self.conv(x) self.conv_d(x)) # # 4. 基础组件空间注意力参考 RTMDet # class SpatialAttention(nn.Module): 空间注意力模块输入/输出(B, C, H, W) - (B, 1, H, W) def __init__(self, kernel_size7): super().__init__() assert kernel_size in {3, 7}, kernel size must be 3 or 7 padding 3 if kernel_size 7 else 1 self.conv nn.Conv2d(2, 1, kernel_size, paddingpadding, biasFalse) self.sigmoid nn.Sigmoid() def forward(self, x): avg_out torch.mean(x, dim1, keepdimTrue) max_out, _ torch.max(x, dim1, keepdimTrue) return self.sigmoid(self.conv(torch.cat([avg_out, max_out], dim1))) # # 5. 基础组件通道注意力参考 RTMDet # class ChannelAttention(nn.Module): 通道注意力模块输入/输出(B, C, H, W) - (B, C, 1, 1) def __init__(self, channels: int) - None: super().__init__() self.pool nn.AdaptiveAvgPool2d(1) self.fc nn.Conv2d(channels, channels, 1, 1, 0, biasTrue) self.sigmoid nn.Sigmoid() def forward(self, x: torch.Tensor) - torch.Tensor: return self.sigmoid(self.fc(self.pool(x))) # # 6. 核心组件单模态Mamba Block # class SingleMambaBlock(nn.Module): 视觉任务专用单模态Mamba Block输入/输出(B, C, H, W) def __init__(self, dim, d_state16, expand2, bimamba_typev6, use_normTrue): super().__init__() self.dim dim self.norm nn.LayerNorm(dim) self.mamba Mamba( d_modeldim, d_stated_state, expandexpand, bimamba_typebimamba_type, if_devide_outTrue, use_normuse_norm ) def forward(self, x): b, c, h, w x.shape skip x x_seq rearrange(x, b c h w - b (h w) c) x_seq self.norm(x_seq) x_seq self.mamba(x_seq) x_out rearrange(x_seq, b (h w) c - b c h w, hh, ww) return x_out skip # # 7. 核心组件跨模态Mamba Block逻辑参考 # class CrossMambaBlock(nn.Module): 跨模态Mamba Block逻辑参考 注意原生 mamba_ssm.Mamba 不支持 extra_emb此处使用拼接作为替代 def __init__(self, dim, d_state16, expand2, bimamba_typev7, use_normTrue): super().__init__() self.dim dim self.norm nn.LayerNorm(dim) self.mamba Mamba( d_modeldim, d_stated_state, expandexpand, bimamba_typebimamba_type, if_devide_outTrue, use_normuse_norm ) def forward(self, x_main, x_aux): b, c, h, w x_main.shape skip x_main x_main_seq rearrange(x_main, b c h w - b (h w) c) x_aux_seq rearrange(x_aux, b c h w - b (h w) c) x_main_seq self.norm(x_main_seq) # 【替代方案】将主特征与辅助特征在通道维度拼接后输入Mamba # 若需真正的跨模态交互建议使用 Cross Attention x_seq torch.cat([x_main_seq, x_aux_seq], dim-1) # 注意此处需确保 Mamba 的 d_model 支持拼接后的维度 # 为简化演示这里暂用 x_main_seq x_aux_seq x_seq x_main_seq x_aux_seq x_seq self.mamba(x_seq) x_out rearrange(x_seq, b (h w) c - b c h w, hh, ww) return x_out skip # # 8. 最终模块跨模态Mamba融合网络已替换为 DConv # class FFAR(nn.Module): 跨模态RGB-IRMamba融合网络 核心逻辑 1. 输入拆分假设输入为 (B, 6, H, W)前3为IR后3为RGB 2. 交叉空间注意力增强 3. DConv标准可变形卷积 单模态Mamba特征提取 4. 跨模态Mamba交互 5. 交叉通道注意力融合输出 输入: (B, 6, H, W) 输出: (B, out_channels, H, W) def __init__(self, in_channels6, out_channels256, hidden_dim256): super().__init__() self.hidden_dim hidden_dim # 输入投影将3通道的RGB/IR投影到hidden_dim self.input_proj_rgb nn.Conv2d(3, hidden_dim, 1, biasFalse) self.input_proj_ir nn.Conv2d(3, hidden_dim, 1, biasFalse) # 注意力模块 self.spatial_att SpatialAttention(kernel_size7) self.channel_att ChannelAttention(hidden_dim) # -------------------------- # 【关键修改】特征提取模块已替换为 DConv # -------------------------- self.dconv DConv(hidden_dim, hidden_dim, k3, s1) # 单模态Mamba self.si_mamba SingleMambaBlock(hidden_dim) # 跨模态交互模块 self.cro_mamba CrossMambaBlock(hidden_dim) # 输出投影 self.out_proj nn.Conv2d(hidden_dim, out_channels, 1, biasFalse) def forward(self, x): Args: x (torch.Tensor): 拼接的输入 (B, 6, H, W)前3为IR后3为RGB Returns: torch.Tensor: 融合后的特征 (B, out_channels, H, W) # -------------------------- # 1. 拆分输入模态 # -------------------------- x_ir x[:, :3, :, :] # 前3通道IR x_rgb x[:, -3:, :, :] # 后3通道RGB # -------------------------- # 2. 输入通道投影 # -------------------------- x_ir self.input_proj_ir(x_ir) x_rgb self.input_proj_rgb(x_rgb) # -------------------------- # 3. 交叉空间注意力增强 # -------------------------- att_ir self.spatial_att(x_ir) att_rgb self.spatial_att(x_rgb) x_ir x_ir * att_ir * att_rgb x_rgb x_rgb * att_rgb * att_ir # -------------------------- # 4. 单模态特征提取DConv Mamba # -------------------------- x_rgb self.dconv(x_rgb) x_rgb self.si_mamba(x_rgb) x_ir self.dconv(x_ir) x_ir self.si_mamba(x_ir) # -------------------------- # 5. 跨模态Mamba交互 # -------------------------- x_rgb_m self.cro_mamba(x_rgb, x_ir) x_ir_m self.cro_mamba(x_ir, x_rgb) # -------------------------- # 6. 交叉通道注意力融合 # -------------------------- ca_rgb self.channel_att(x_rgb_m) ca_ir self.channel_att(x_ir_m) x_out (x_ir_m * ca_ir) / (ca_rgb 1e-8) (x_rgb_m * ca_rgb) / (ca_ir 1e-8) # -------------------------- # 7. 输出投影 # -------------------------- return self.out_proj(x_out)2.3 核心创新三DNM Mamba 专属检测 NeckDNMDetection Neck for Mamba是专为 Mamba 提取的多尺度特征设计的检测 Neck核心是对 YOLOv11 的原生 Neck 进行 Mamba 适配改造解决了传统 CNN Neck 无法充分利用 Mamba 长距离特征的问题。核心改造点将 YOLOv11 Neck 中的C3K2 模块替换为 Mamba Block充分发挥 Mamba 的长距离建模优势将原生 SPPF 模块升级为Mamba-SPPF在池化后对每个尺度的特征加入 Mamba Block强化多尺度特征融合保留 YOLOv11 的上下采样、Concat 等核心结构保证模型的收敛性与高效性。import torch import torch.nn as nn from mamba_ssm import Mamba from einops import rearrange class SingleMambaBlock(nn.Module): 视觉任务专用的单分支Mamba Block 输入输出形状均为 (B, C, H, W)可直接嵌入CNN/YOLO/MMDet框架 Args: dim (int): 输入/输出通道数 d_state (int): Mamba状态空间维度默认16 expand (float): Mamba内部通道扩展系数默认2 bimamba_type (str): 双向Mamba类型默认v6 use_norm (bool): 是否在Mamba内部使用Norm默认True def __init__(self, dim, d_state16, expand2, bimamba_typev6, use_normTrue): super().__init__() self.dim dim # 前置LayerNormVision Mamba标准配置 self.norm nn.LayerNorm(dim) # Mamba核心模块 self.mamba Mamba( d_modeldim, d_stated_state, expandexpand, bimamba_typebimamba_type, if_devide_outTrue, use_normuse_norm ) def forward(self, x): Args: x (torch.Tensor): 输入特征图形状 (B, C, H, W) Returns: torch.Tensor: 输出特征图形状 (B, C, H, W) b, c, h, w x.shape skip x # 残差连接 # -------------------------- # 1. 2D特征 - 序列 (B, C, H, W) - (B, H*W, C) # -------------------------- x_seq rearrange(x, b c h w - b (h w) c) # -------------------------- # 2. 前置LayerNorm Mamba前向 # -------------------------- x_seq self.norm(x_seq) x_seq self.mamba(x_seq) # -------------------------- # 3. 序列 - 2D特征 (B, H*W, C) - (B, C, H, W) # -------------------------- x_out rearrange(x_seq, b (h w) c - b c h w, hh, ww) # -------------------------- # 4. 残差连接 # -------------------------- return x_out skip class SPPF_1225_2(nn.Module): Spatial Pyramid Pooling - Fast (SPPF) layer for YOLOv5 by Glenn Jocher. def __init__(self, c1, c2, k5): Initializes the SPPF layer with given input/output channels and kernel size. This module is equivalent to SPP(k(5, 9, 13)). super().__init__() c_ c1 // 2 # hidden channels self.cv1 Conv(c1, c_, 1, 1) self.cv2 Conv(c_ * 4, c2, 1, 1) self.m nn.MaxPool2d(kernel_sizek, stride1, paddingk // 2) self.single_mamba SingleMambaBlock(c1,c_) def forward(self, x): Forward pass through Ghost Convolution block. y [self.cv1(x)] y.extend(self.m(y[-1]) for _ in range(3)) y [self.single_mamba(tensor) for tensor in y] return self.cv2(torch.cat(y, 1))三、实验结果与消融分析3.1 主实验结果对比论文在无人机双模态检测权威数据集DroneVehicle上进行了实验该数据集包含 28439 对 RGB-IR 图像953087 个标注框涵盖 car、truck、freight car、bus、van 五大类别是无人机双模态检测的黄金基准。DetectorsInput CategoryCarTruckFreight-carBusVanmAP (%) YOLOv11 (Base)RGB96.474.454.295.056.375.3YOLOv11 (Base)RGBIR98.377.565.895.059.979.3OAFA (CVPR’24)RGBIR90.376.873.390.366.079.4UAVD-Mamba (ours)RGBIR98.683.969.896.966.183.0实验结果表明UAVD-Mamba 在 DroneVehicle 数据集上实现了83.0% 的 mAP相比基线 YOLOv11 双模态版本提升了 3.7%相比 CVPR 2024 SOTA OAFA 方法提升了 3.6%其中 Car、Truck、Bus、Van 四大类别均实现了 SOTA 性能充分证明了方法的有效性。3.2 参数量与效率对比MethodmAP (%)Params (M)GFlops4090 (FPS)YOLOv11-RGB75.218.221.3-YOLOv11-IR79.318.221.3-C2Former (TGRS’24)74.2132.5100.9-OAFA (CVPR’24)79.4--17.8UAVD-Mamba-FAST81.726.529.424.2UAVD-Mamba83.039.738.914.4UAVD-Mamba 在实现 SOTA 精度的同时保持了极高的推理效率即使是完整版也能在 RTX 4090 上实现 14.4FPS 的推理速度轻量化版本 UAVD-Mamba-FAST 更是实现了 24.2FPS 的推理速度mAP 仍高达 81.7%远超 OAFA 方法完美适配无人机端侧部署需求。3.3 消融实验MethodDTMBFFARDNMmAP(%)提升幅度Base YOLOv11❌❌❌79.6-BaseDTMB✅❌❌81.72.1%BaseDTMBFFAR✅✅❌82.42.7%UAVD-Mamba✅✅✅83.03.4%消融实验清晰表明DTMB 可变形 Token 模块是最大的涨点来源单独加入即可带来 2.1% 的 mAP 提升充分证明了可变形 Token 对 Vision Mamba 的优化效果FFAR 融合模块与 DNM 检测 Neck 进一步带来了 1.3% 的精度提升三大模块协同作用实现了最终的 SOTA 性能。四、顶刊创新延伸思路基于 UAVD-Mamba 的核心设计可从以下方向进行创新延伸轻松产出顶刊 / 顶会论文频域 - 空域联合 Mamba 融合结合小波频域分解与可变形 Token Mamba在频域进行双模态特征融合进一步提升小目标检测精度弱对齐双模态 Mamba 融合针对无标定的 RGB-IR 图像对加入光流引导的可变形 Token 对齐解决模态错位问题端侧轻量化 Mamba 设计结合模型量化、稀疏化、结构重参数化打造可部署在无人机飞控端的超轻量版本多模态 Mamba 预训练基于大规模无人机 RGB-IR 数据集进行双模态 Mamba 预训练提升小样本场景下的检测性能检测 - 跟踪一体化 Mamba 框架将可变形 Token Mamba 扩展到多目标跟踪领域利用 Mamba 的时序建模能力实现无人机视频的检测跟踪一体化。五、总结本文深度解析了湖南大学原创的UAVD-Mamba无人机 RGB-IR 双模态检测框架该方法针对传统 Vision Mamba 的固定 Patch 缺陷提出了可变形 Token Mamba BlockDTMB实现了对不规则目标的自适应几何适配通过FFAR 特征融合抗冗余模块最大化双模态互补性过滤冗余信息通过DNM Mamba 专属检测 Neck完美适配 YOLOv11 架构强化多尺度小目标检测能力。实验结果表明UAVD-Mamba 在 DroneVehicle 数据集上实现了 83.0% 的 mAP远超 YOLOv11 基线与 CVPR 2024 SOTA 方法同时保持了极高的推理效率是无人机双模态检测领域的标杆性工作。本文提供的完整复现代码可直接集成到 YOLO 系列框架中实现即插即用的涨点效果适合科研与工程落地全场景使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2529269.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…