【论文解读】Deformable Mamba for Wide Field of View Segmentation
论文题目Deformable Mamba for Wide Field of View Segmentation论文链接https://arxiv.org/pdf/2411.164811. Abstract宽视场WFoV图像分割对于自动驾驶至关重要但面临着两大挑战一是广角镜头带来的严重几何畸变二是超高分辨率带来的巨大计算负担。现有的 Vision Mamba (Vim) 模型虽然具有线性的计算复杂度效率高但其依赖的规则光栅扫描Raster Scan顺序无法适应图像的几何变形导致在边缘区域的分割性能下降。为了解决这一问题本文提出了Deformable Mamba。该方法通过引入可变形卷积来预测空间偏移动态调整 Mamba 的扫描采样位置。在 Cityscapes 和 Mapillary Vistas 等基准测试中该方法显著优于现有的先进模型SOTA。2. motivation背景自动驾驶车辆通常使用鱼眼镜头或全景相机这会产生严重的径向畸变。现有的基于 CNN 的方法难以捕捉长距离依赖而基于 Transformer 的方法计算复杂度随分辨率平方级增长难以实时处理 WFoV 图像。痛点Mamba 模型Vim虽然解决了计算效率问题但它按固定的顺序读取图像块Patchify。这种“死板”的读取方式无法适应广角图像中物体形状的扭曲导致特征提取不准确。动机作者希望保留 Mamba 的线性复杂度优势同时赋予其像可变形卷积DCN那样的“灵活视角”即根据物体形状动态调整感受野。3. Methods这是论文最精彩的部分作者提出了Deformable Mamba Block (DMB)旨在让 Mamba “学会”如何弯曲视角。3.1 整体架构概览模型遵循编码器-解码器结构。编码器由堆叠的 Deformable Mamba Blocks 组成负责提取特征解码器负责上采样输出分割结果。3.2 Deformable Mamba Block (DMB) —— 核心组件这是论文的灵魂旨在解决“规则扫描”与“几何畸变”的矛盾。双路设计Mamba 路径主干负责处理序列信息捕捉长距离依赖。Offset 子网络辅助这是一个轻量级的卷积分支通常由几个卷积层组成专门用于预测空间偏移量Offsets。动态采样机制传统的 Mamba 直接对规则划分的 Patch 进行处理。在 DMB 中Offset 子网络首先根据当前特征图预测出一组偏移量ΔP\Delta PΔP。然后Mamba 的输入不再是原始的规则坐标而是PΔPP \Delta PPΔP。这意味着 Mamba 在读取信息时会根据图像内容的几何结构“跳着”或“偏移”去读取相关的像素从而适应物体的弯曲形状。公式逻辑简化版XdeformedSample(X,GridΔ(Conv(X)))X_{deformed} \text{Sample}(X, \text{Grid} \Delta(\text{Conv}(X)))XdeformedSample(X,GridΔ(Conv(X)))YVimBlock(Xdeformed)Y \text{VimBlock}(X_{deformed})YVimBlock(Xdeformed)3.3 扫描策略 (Scanning Strategy)作者设计了一种适合宽视场图像的扫描顺序。考虑到全景图通常是 360 度环绕的论文可能采用了环形或特定的空间填充曲线如希尔伯特曲线变体以确保在序列化过程中保持空间的连续性减少长距离依赖的断裂。4. Experiments4.1 数据集Cityscapes:用于评估标准视角下的性能。Mapillary Vistas:核心测试集包含极高分辨率的街景图像非常适合测试 WFoV 分割能力。4.2 对比结果基准对比与 SegFormer, Mask2Former, 以及原始的 Vision Mamba (Vim) 进行了对比。关键数据Deformable Mamba 在保持较低计算成本FLOPs的同时mIoU平均交并比显著高于对比模型。特别是在处理图像边缘的细长物体如路边的护栏、电线杆时由于解决了畸变问题精度提升明显。4.3 消融实验 (Ablation Studies)Offset 网络的作用实验证明如果不加入偏移预测网络模型在边缘畸变区域的分割效果会大打折扣。扫描方式的影响验证了论文提出的扫描策略优于传统的行优先扫描。5. 结论 (Conclusion)本文提出了 Deformable Mamba成功地将视觉 Mamba 的高效性与可变形卷积的几何适应性结合在一起。通过引入Offset 子网络来动态调整 Mamba 的输入采样位置该模型不仅保持了线性计算复杂度还能有效处理宽视场图像中的几何畸变。这为在资源受限设备如自动驾驶汽车上进行高精度全景分割提供了新的范式。 核心方法论总结核心组件作用解决的问题Vision Mamba (Vim)提供主干网络处理序列数据解决了高分辨率图像下 Transformer 计算量过大的问题实现了线性复杂度。Offset 子网络预测空间偏移量 (ΔP\Delta PΔP)解决了 Mamba 无法处理几何畸变的痛点让模型“看”得更灵活。动态采样根据偏移量调整输入使得模型能够适应广角镜头下的物体形状提升边缘分割精度。希望这篇对 Deformable Mamba 的深度解析能帮助你理解这篇论文如何在效率与几何适应性之间找到了完美的平衡
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2567045.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!