paper
文章目录
- Abstract
- Method
- 整体模型架构
- 可变形状态空间模型
- Experiments
Abstract
然而,大多数现有的视觉Mamba方法使用预定义的扫描顺序将图像展平为1D序列,导致模型在特征提取过程中对图像空间结构信息的利用能力减弱。为解决这一问题,作者提出了一种新型视觉基础模型——DefMamba。该模型包含多尺度 Backbone 结构和可变形Mamba(DM)模块,能够动态调整扫描路径以优先处理重要信息,从而提升对相关输入特征的捕获和处理能力。通过结合可变形扫描(DS)策略,该模型显著增强了学习图像结构的能力,并能检测物体细节的变化。
可变形扫描和其他扫描方法的比较。 (a)栅格扫描[23,47],(b)局部扫描[19],(c)连续扫描[42],(d)可变形扫描。蓝点表示参考点,红点表示可变形点。黄色箭头代表固定的扫描顺序,红色梯度箭头表示采取的扫描顺序。我们的方法表现更能,可以准确捕获对象的结构特征,从而可以开发更精致的扫描方法。
Method
整体模型架构
可变形状态空间模型
Deformable Scanning.
Experiments