SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking—— 一种用于高效视觉追踪的脉冲驱动框架
1. 研究背景与问题背景: 脉冲神经网络SNN因其事件驱动的特性和稀疏计算优势在神经形态芯片上具有远超人工程神经网络ANN的能效潜力非常适合处理视频中的连续运动目标。问题: 现有的将SNN应用于RGB视觉追踪的框架存在缺陷要么在计算中仍依赖连续值不是完全的脉冲驱动能效打折扣要么直接模仿ANN的单流架构进行密集的双向交互未能充分利用SNN的时空动态特性计算开销大。简言之现有的SNN追踪器在精度和效率之间难以两全。2. 核心贡献与创新点文章提出了SpikeTrack一个旨在实现高精度与高能效兼顾的脉冲驱动RGB追踪框架。其核心创新在于三点① 非对称的SNN架构非对称时间步模板分支使用多个时间步T1以充分利用SNN神经元的时空动态特性精细建模模板特征搜索分支只进行单时间步T1的快速推理。单向信息流信息只从模板分支流向搜索分支避免了计算量巨大的双向交互。计算密集的模板分支仅在初始化或需要更新时运行一次大大降低了整体计算成本。② 受大脑启发的记忆检索模块为了解决单向传输下信息损失的问题该模块模拟大脑的神经推理机制将模板特征压缩为一个紧凑的记忆矩阵。搜索分支通过循环查询这个记忆矩阵逐步从全局轮廓到细节构建不断细化对目标的感知有效地从模板中提取目标线索。③ 首个实现高精度与高能效的脉冲驱动RGB追踪器实验证明SpikeTrack不仅在SNN追踪器中达到了SOTA甚至超越了部分先进的ANN追踪器如TransT同时能耗极低。3. 实验结果与性能能效惊人在LaSOT数据集上SpikeTrack-B256的精度超过TransT 2.2%但能耗仅为后者的1/26。与高效的ANN追踪器AsymTrack相比能效是其2.5倍。精度领先在多个标准追踪基准GOT-10k, LaSOT, TrackingNet, UAV123等上显著超越了所有先前的SNN追踪器如SiamSNN, SpikeSiamFC。例如在UAV123上SpikeTrack比之前的SNN最佳结果高出10%的AUC。模块有效性通过消融实验证明了其非对称架构、记忆检索模块、可学习衰减因子等设计的必要性。4. 局限与未来工作局限性: 在区分相似物体的场景下表现不佳。因为当前网络缺乏显式的区分模块且脉冲编码本身难以传递精细的语义信息。未来方向: 探索如何通过脉冲机制传递更精细的表示以解决相似物体干扰等挑战性场景。SpikeTrack通过巧妙的非对称架构和仿脑的记忆检索机制首次让脉冲神经网络SNN在RGB视觉追踪任务上既达到了超越顶尖人工神经网络ANN的高精度又实现了远超后者的超高能效。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示项目地址在这里如下所示摘要脉冲神经网络SNN有望实现高能效的视觉处理但将其应用于 RGB 视觉追踪仍然困难现有的 SNN 追踪框架要么不完全符合脉冲驱动的计算模式要么没有充分利用神经元的时空动态特性导致在效率和精度之间需要权衡。为了解决这个问题我们引入了 SpikeTrack一个用于高能效 RGB 目标追踪的脉冲驱动框架。SpikeTrack 采用了一种新颖的非对称设计该设计利用非对称时间步长展开和单向信息流在利用时空动态特性的同时削减了计算量。为了确保分支间有效的单向信息传递我们受神经推理机制启发设计了一个记忆检索模块。该模块循环查询一个由模板初始化的紧凑记忆以检索目标线索并随时间推移增强目标感知。大量实验表明SpikeTrack 在基于 SNN 的追踪器中达到了最先进的性能并且与先进的 ANN 追踪器相比仍具有竞争力。值得注意的是它在 LaSOT 数据集上超越了 TransT而能耗仅为后者的 1/26。据我们所知SpikeTrack 是第一个使 RGB 追踪既精确又高能效的脉冲驱动框架。1. 引言脉冲神经网络SNN是一种有前景的高能效计算范式它模拟生物神经元的时空动态特性和脉冲发放机制 [20]。其脉冲驱动计算有两个优点i仅在事件驱动时才触发计算 [21]ii脉冲张量与权重之间的矩阵乘法可以转换为稀疏加法 [7]。这使 SNN 在神经形态芯片 [24, 25] 上相比 ANN 具有显著的节能优势。SNN 已在多个视觉任务 [13, 17, 41] 上展现出强劲的结果其时空动态特性使其成为追踪连续运动物体的自然选择。图 1. LaSOT [5] 数据集上的能量-精度权衡。SpikeTrack 在达到与精度导向方法相当的准确率的同时比高效的 ANN 追踪器消耗更低的能量。当前的 SNN 追踪工作分为基于 RGB 和基于事件的方法。在基于 RGB 的方法中SiamSNN [18] 和 Spike-SiamFC [32] 采用 Siamese 架构分别通过网络转换和端到端训练实现追踪。尽管这些方法在形式上使用了脉冲神经元但它们将脉冲信号解码为连续值进行计算阻碍了完全脉冲驱动的处理并降低了能效。基于事件的方法 [26, 34] 借鉴了 ANN 中的密集交互框架 [2, 37]也称为单流架构如图 2 所示。这种方法在单个时间步内将搜索区域和多个模板沿令牌长度维度拼接输入到骨干网络通过脉冲自注意力进行联合建模。然而这种直接模仿未能充分利用 SNN 的时空关联动态特性且密集的双向交互大大增加了计算开销。这就提出了一个研究问题我们能否设计一种遵循脉冲驱动范式同时充分利用时空建模能力进行高效 RGB 追踪的 SNN为了解决这个问题我们提出了 SpikeTrack一种用于高能效 RGB 追踪的脉冲驱动 SNN。SpikeTrack 采用非对称 Siamese 架构具有非对称时间步输入和单向信息传递如图 2 所示。具体来说模板分支在多个时间步上展开为每个步骤分配一个模板并通过神经元的时空动态特性联合建模模板表征而搜索分支则执行高效的单时间步推理。信息仅从模板分支流向搜索分支使得计算量大的模板分支仅在初始化或模板更新时运行从而削减计算量。此外为了确保分支间有效的单向信息传递我们受神经推理机制 [27] 启发设计了一个记忆检索模块MRM。该模块循环查询一个由模板特征初始化的紧凑记忆以检索目标线索并随时间推移增强目标感知。大量实验表明SpikeTrack 通过一个简单的框架实现了强大的能效和精度超越了先前的基于 SNN 的追踪器。例如SpikeTrack-S₂₅₆ 在 UAV123 数据集上比 SpikeSiamFC 高出 8.5%。此外如图 1 所示SpikeTrack-S₂₅₆ 以 2.5 倍的能效超越了效率导向的 AsymTrack [39]而 SpikeTrack-B₂₅₆ 在节省 7.6 倍能量的同时以 2.2% 的更高精度超越了精度导向的 TransT [3]。我们的主要贡献总结如下我们设计了一种非对称 SNN它充分利用了神经元的时空动态特性同时显著降低了计算成本。我们提出了一种受大脑启发的记忆检索模块能够实现有效的单向信息传递。基于上述设计我们提出了 SpikeTrack一个用于高效 RGB 追踪的脉冲驱动框架并提供了一系列模型变体。跨多个基准的实验证明了其有效性。2. 相关工作视觉任务中的 SNN。最近基于 SNN 的方法在多种视觉任务上取得了与 ANN 相当的性能包括图像分类 [35, 36]、目标检测 [17]、语义分割 [13] 和视频分类 [41]以及更高级的应用如自动驾驶感知 [40] 和具身智能 [10]。通过建模神经元膜电位动力学SNN 拥有强大的时空编码能力这使得它们对于需要感知连续运动物体的追踪任务尤其有前景。图 2. 单流追踪 SNN上与我们的非对称追踪 SNN下的结构比较。L 表示骨干网络中的块数。视觉追踪架构。视觉追踪旨在根据给定的初始模板预测目标在视频帧中的位置和尺度。基于 ANN 的追踪器遵循双流Siamese或单流设计。双流方法分别提取模板和搜索特征然后通过互相关或 Transformer 交互建模它们的关系。OSTrack [37] 采用单流设计将模板和搜索 patches 在 Vision Transformer 中拼接以联合提取和关联特征取得了强劲的结果。然而AsymTrack [39] 表明这种双向交互在边缘设备上成本高昂并提出了一种非对称 Siamese 网络利用单向模板调制来实现具有竞争力的轻量级追踪。受此启发我们为基于 RGB 的 SNN 追踪设计了一种非对称架构使用非对称时间步输入和基于记忆检索的单向传递以最小的开销实现高效追踪。基于 SNN 的视觉追踪。当前基于 SNN 的追踪研究主要针对事件相机输入其中稀疏事件数据和单流架构取得了强劲的结果 [26, 34]但对专用硬件的依赖限制了实际应用。基于 RGB 的追踪提供了一个更易于部署的替代方案然而现有的努力如 SiameseSNN [18] 和 SpikeSiameseFC [32]受限于特定的 ANN 框架可扩展性差性能有限并且缺乏全面的评估或能量分析。为了解决这些问题我们提出了 SpikeTrack一个简洁高效的 RGB 追踪基线并进行了广泛的基准评估和详细的理论能量分析。3. 基于 SpikeTrack 的视觉追踪在本节中我们将详细介绍提出的 SpikeTrack。我们从第 3.1 节开始简要描述整体网络架构随后第 3.2 节介绍所使用的基本脉冲神经元模型。接着第 3.3 节详细描述网络组件。最后第 3.4 节介绍训练和推理流程。3.1. 概述如图 3 所示SpikeTrack 包含三个组件一个共享权重的脉冲骨干网络、一个用于分支间单向交互的记忆检索模块MRM以及一个预测头。在推理过程中模板分支在模板初始化或模板更新后执行一次推理将来自不同中间层的特征作为记忆缓存到记忆库中。然后搜索分支使用 MRMs 从记忆中检索目标线索并逐步细化目标感知。最后预测头利用增强后的区域特征产生追踪结果。图 3. SpikeTrack 概述。网络由三部分组成一个权重共享的 Siamese 骨干网络、一个用于信息传递的记忆检索模块和一个预测头。我们采用非对称时间步输入和单向信息流。在推理过程中模板分支的特征被转换并缓存为记忆。搜索分支查询此记忆以提取目标线索。模板分支仅在初始化或更新时运行一次。3.2. 脉冲神经元模型我们采用归一化整型漏电积分发放NI-LIF神经元 [13]。它基于经典的 LIF 神经元 [19] 使用归一化的整数激活进行训练并在推理过程中将整数激活转换为等效的脉冲以保持脉冲驱动的特性。在这项工作中我们将漏电因子设计为可训练变量以允许网络自适应地建模时间步之间的相关性。NI-LIF 的神经动力学方程为3.3. SpikeTrack 架构图 4. 记忆检索模块的实现细节。左下角的紫色图例说明了大脑中循环、回环的连接结构。为简化图示省略了跨时间步的时间脉冲发放。记忆检索模块MRM。如图 4 所示MRM 实现了从模板到搜索分支的有效单向信息传递。其设计借鉴了神经科学关于视觉感知的发现 [27]该发现在遮挡情况下大脑 V1 L2/3 区域的循环连接通过基于先验期望的迭代细化实现了完整的感知推理——这种机制与基于模板的追踪自然契合。预测头。我们采用一个中心头来预测目标边界框遵循 OSTrack [37] 的设计但采用了脉冲驱动机制。搜索分支的特征通过三个并行的分支每个分支由几个 Conv-BN-NILIF 层组成。最后一层不包含 BN 和 NI-LIF。这些分支分别预测1目标的中心定位分类2由分辨率降低引起的局部偏移以及3归一化的边界框宽度和高度。3.4. 训练目标与推理推理。在推理过程中模板集被视为一个队列并以先进先出的方式更新同时保持第一个初始模板不变。更新策略遵循标准实践 [33]使用两个超参数更新间隔和更新分数阈值。当达到更新间隔且预测的质量分数高于阈值时执行更新操作。所有模型使用同一组超参数。为了减少训练负担并保持网络简单SpikeTrack 省略了单独的质量评分模块而是使用预测头中的定位分支分数作为置信度分数。4. 实验4.1. 实现细节SpikeTrack 模型使用 Python 3.12 和 PyTorch 2.0.0 实现并在 8 块 NVIDIA 4090 GPU 上进行训练。模型。我们开发了六种 SpikeTrack 模型变体以平衡功耗和精度它们在骨干网络大小base/small、输入分辨率256/384和时间步数1/3上有所不同。我们采用 Spike-Driven Transformer (SDT) V3-19M [36] 作为 SpikeTrack-Base 的骨干网络SDTV3-5.1M 用于 SpikeTrack-Small。骨干网络使用在 ImageNet-1K [4] 上预训练的参数进行初始化。训练。我们在标准 SDT 数据集上进行训练COCO [15]、LaSOT [5]、TrackingNet [22] 和 GOT-10k [9]排除了训练集中的 1k 个序列以便与其他追踪器的训练数据对齐。总批次大小为 128。模板和搜索图像通过将目标边界框扩展 4 倍生成。使用 AdamW [16] 优化器进行训练。所有模型使用相同的训练策略。对于 T1 的模型我们训练 320 个 epoch每个 epoch 使用 6 万对图像。骨干网络的学习率设为 4e-5预测头和 MRMs 的学习率设为 4e-4权重衰减为 1e-4。学习率在 240 个 epoch 后降低 10 倍。对于 T1 的模型训练数据由包含一个搜索区域和 T 个模板的图像组构成。从预训练的 T1 SpikeTrack 权重开始我们训练 60 个 epochMRM 和可学习衰减因子的学习率为 4e-4其他模块为 4e-5。学习率在 30 个 epoch 后降低 10 倍。推理。为简单起见所有模型使用同一组超参数。在线模板更新间隔设为 25更新置信度阈值默认设为 0.7。遵循标准实践 [3]在追踪中应用 Hanning 窗口惩罚以融入位置先验信息。能量评估。我们将 SpikeTrack 与 SNN 和 ANN 追踪方法进行比较遵循先前工作中使用的能耗评估标准 [17, 35, 36]。ANN 能量成本计算为对于 SpikeTrack 的能量分析我们将脉冲发放率定义为在 LaSOT 和 GOT-10K 上测得的平均脉冲率。模板分支的能量通过将其总能量除以更新间隔来估算。4.2. 追踪器比较我们在七个广泛使用的追踪基准上将我们的 SpikeTrack 与 SNN 追踪器和 ANN 追踪器进行了比较。GOT-10K [9]。GOT-10k 测试集包含 180 个视频涵盖了追踪中常见的各种挑战。如表 1 所示SpikeTrack-S256-T3 在达到与最先进的高效 ANN AsymTrack-B 相当的 AO 分数的同时仅消耗其一半的能量。此外SpikeTrack-B256-T1 比现有的 SNN 追踪器 SiamSNN 提高了 38.2% 的 AO。LaSOT [5]。LaSOT 是一个大规模的长期追踪基准。测试集包含 280 个视频平均长度为 2448 帧。在 LaSOT 上的结果如表 1 所示。SpikeTrack-B256-T3 在 AUC 上超越 TransT 2.2%而所需能量不到其七分之一。比较不同的 SpikeTrack 变体时S256 和 B384 模型的性能并未随着 T 的增加而提高。我们将其归因于长期追踪对模板精度有更高的要求而我们简单的评分机制在更新过程中引入了某些低质量模板这反过来损害了预测精度。LaSOText [6]。LaSOText 是一个最近发布的数据集包含 150 个视频序列和 15 个对象类别。在这个数据集上如表 1 所示SpikeTrack 变体遵循预期模式较高的 T 值和增加的分辨率都带来逐步的性能提升。值得注意的是SpikeTrack-B256-T1 在消耗更少能量的同时实现了比 AsymTrack-B 高 1.4% 的 AUC。TrackingNet [22]。TrackingNet 是一个包含 511 个视频的大型数据集涵盖了多样化的对象类别和场景。如表 1 所示当与 SwinTrack224 的 AUC 分数相匹配时SpikeTrack-B256-T3 的能耗仅为后者的三分之一。SpikeTrack-B384-T3 达到与 CSWinTT 相当的 AUC能耗仅为后者的 35%。TNL2K [30]。TNL2K 是一个最近发布的大规模数据集包含 700 个具有挑战性的视频序列。如表 2 所示与强大的单流 ANN 基线 OSTrack256 相比SpikeTrack-B384-T3 在 AUC 上高出 0.5%而能耗不到其三分之一。类似地SpikeTrack-S256-T1 在 AUC 上比 TransT 高 0.5%而所需能量仅为后者的 3%。UAV123 [1] 和 OTB100 [31]。这两个都是小规模基准分别包含 123 和 100 个视频。在这两个数据集上的结果如表 2 所示。在 OTB 数据集上SpikeTrack-S256-T3 的 AUC 分别比现有的基于 SNN 的方法 SpikeSiamFC 和 SiamSNN 高出 5% 和 20.1%。对于 UAV123SpikeTrack-B256-T3 的 AUC 比之前最佳的 SNN 结果高出 10%。4.3. 消融与分析如表 3 所示我们对训练方法、架构设计和超参数设置进行了消融。为了与单流架构进行公平比较基线#1是从头训练的 SpikeTrack-B256-T2而不是微调 SpikeTrack-B256-T1#2。微调#2需要的 epoch 更少且性能优于从头训练#1。非对称 vs. 单流。遵循 [26, 34] 中的结构并保持相同的训练设置我们比较了单流架构和我们的非对称架构如表 3#3所示。我们的方法以更低的能耗取得了更好的结果。这表明使用时空神经元动力学建模模板并结合记忆检索模块优于使用骨干网络联合建模所有模板和搜索区域的方法。MRM 的有效性。我们将 MRM 替换为普通的脉冲交叉注意力使搜索区域特征能够从拼接的模板特征中学习。如表 3#4a所示这种修改消除了时空处理和循环操作降低了能耗但与基线相比也导致了明显的精度下降。此外我们将 MRM 替换为 AsymTrack [39] 的模板调制模块并实现了脉冲和非脉冲版本。#4b指出该方法在转换为脉冲后非常轻量但性能严重下降。#4c的混合结构提高了性能但仍非最优。这表明将模板用作卷积核进行信号调制的方法不适合脉冲网络的粗粒度表示。融合模块的有效性。表 3#5比较了 SNN 结构中常用的时间步平均融合方法 [17, 35, 36] 与本文提出的通道加权融合方法。后者表现更好。可学习衰减 vs. 固定衰减。如表 3#6所示我们比较了先前 SNN 工作中 [13, 17, 35, 36] 使用的固定膜电位漏电因子与我们的可学习漏电因子。可学习因子能够实现跨时间步更灵活、更可控的交互。模板扩展因子。与先前的方法不同SpikeTrack 采用与搜索区域相同尺寸和扩展因子的模板设置。我们的实验表明较大的模板扩展因子和较高的模板分辨率显著提高了精度如表 3#7所示。我们推测由于二进制张量缺乏精细的目标细节引入背景信息进行对比表示可以提供更全局的上下文从而改善目标编码。MRM 中的循环次数。图 5 显示了在 MRM 中使用不同检索循环次数的结果。当循环次数超过 1 时我们在残差连接上添加了通道级的可学习层缩放layer scale以确保训练稳定性。一到两次循环效果最好而更多次循环可能由于累积误差和过于狭窄的聚焦而导致性能下降。与精度导向追踪器的差距分析。我们将 SpikeTrack 与精度导向追踪器 OSTrack [37] 在 LaSOT 数据集的 14 个属性上进行了比较如图 6 左侧面板所示。它们之间仍然存在明显的性能差距。右侧面板显示了 SpikeTrack-B 变体与 OSTrack-256 之间的平均 AUC 差距。最大的差距出现在形变Deformation和快速运动Fast Motion场景中这对深度语义理解和重新检测能力构成了更大的挑战。我们希望未来的基于 SNN 的追踪器设计能够基于这些洞察缩小与 ANN 方法的差距。所有属性的全称见补充材料。可视化分析。如图 7 所示我们在三个挑战性场景下可视化了每个 MRM 层的脉冲输出。可以观察到MRM 遵循一个从全局到实例的感知过程基于记忆提供的线索构建对搜索区域的理解。该方法在遮挡和背景干扰下表现良好但在相似物体干扰的场景中尽管它最终定位到了正确目标但仍然受到了相似物体的影响。我们将此归因于使用基于脉冲的编码难以表示精细的语义信息。5. 结论这项工作提出了 SpikeTrack一系列脉冲驱动的视觉追踪模型。凭借非对称架构和基于记忆检索的单向信息传递SpikeTrack 实现了高能效且准确的 RGB 追踪。大量实验表明SpikeTrack 不仅在基于 SNN 的追踪器中树立了新的最先进水平而且在显著降低能耗的同时展现出与近期基于 ANN 的追踪器相竞争的性能。我们希望这项工作能够推进 SNN 在 RGB 追踪领域的研究并帮助缩小与基于 ANN 的追踪器的差距。图 6. SpikeTrack 与精度导向 ANN 在 LaSOT 各属性上的差距分析。图 7. MRM 产生的脉冲张量可视化。展示了三种情况相似物体、遮挡和背景干扰。局限性。SpikeTrack 的一个局限性在于其难以处理包含相似物体的场景。这是因为网络没有明确的模块来区分相似物体并且仅靠脉冲信息不足以传递进行此类区分所需的精细表示。在未来工作中我们计划在此基础上探索如何通过基于脉冲的机制传递精细表示以应对这些挑战性场景。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2417556.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!