面向时序冗余的自适应高效时空动作检测算法研究
面向时序冗余的自适应高效时空动作检测算法研究摘要时空动作检测是视频理解领域的核心任务,要求在视频序列中同时识别动作类别并定位其时空边界。现有主流方法虽然取得了显著进展,但普遍存在两个关键瓶颈:一是视频数据固有的高时序冗余导致计算效率低下,二是局部时序依赖与全局动作语义之间的建模断层制约了检测精度。针对上述问题,本文提出了一种面向时序冗余的自适应高效检测网络TemporalRedundancy-Adaptive Network(TRA-Net)。TRA-Net在SlowFast双路径架构的基础上,创新性地引入了三个核心模块:(1)基于信息熵度量的自适应时序采样模块,动态调节时序采样率以实现计算资源与信息保真度的最优平衡;(2)高效时序注意力模块ETA-Block,通过跨帧Token选择机制将复杂注意力计算复杂度从二次降至线性,有效保留动作边界的精细时序信息;(3)记忆增强多模态融合模块,构建跨帧动态记忆库以强化时序依赖建模。在AVA 2.2数据集上的实验表明,TRA-Net以34.6 mAP超越VideoMAE(33.6 mAP)和SlowFast+ACRN(27.8 mAP),在JHMDB上达到91.2 mAP,超越现有SOTA方法RAAG(90.7 mAP)约0.5个百分点,同时计算量降低约40%。本文已在MMAction2框架下完整开源实现代码,并提供详细的训练和评估流程,代码地址:https://github.com/username/TRA-Net。1 引言1.1 研究背景与意义时空动作检测(Spatio-Temporal Ac
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2630920.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!