【论文阅读】时序动作检测系列论文精读(2019年)

news2025/7/19 19:11:39

文章目录

  • 1. BMN: Boundary-Matching Network for Temporal Action Proposal Generation
    • 论文目的——拟解决问题
    • 贡献——创新
    • 实现流程
    • 详细方法
  • 2. MGG: Multi-granularity Generator for Temporal Action Proposal
    • 论文目的——拟解决问题
    • 贡献——创新
    • 实现流程
    • 详细方法
  • 3. P-GCN: Graph Convolutional Networks for Temporal Action Localization
    • 论文目的——拟解决问题
    • 贡献——创新
    • 实现流程
    • 详细方法

1. BMN: Boundary-Matching Network for Temporal Action Proposal Generation

论文目的——拟解决问题

  • Current bottom-up proposal generation methods can generate proposals with precise boundary, but cannot efficiently generate adequately reliable confidence scores for retrieving proposals.【目前自下而上的提案生成方法可以生成具有精确边界的提案,但不能有效地生成足够可靠的信心分数来检索提案。】

贡献——创新

  • 提出Boundary-Matching机制,利用2d图表示连续且密集分布的候选框的得分。
  • 提出高效且端到端的候选框生成网络BMN(Boundary-Matching Network)。

实现流程

在这里插入图片描述
BMN网络同时生成边界概率序列 (Boundary Probability Sequence) 和边界匹配置信图 (Bounding-Matching confidence map)

BM confidence map: 同一行的proposal具有相同的时间长度,同一列的proposal具有相同的开始时间。
在这里插入图片描述

详细方法

  • Boundary-Matching Mechanism:
    首先,BMN: Boundary-Matching Network for Temporal Action Proposal Generationtemporal proposal ϕ 表示为其起始边界ts和结束边界te的匹配对。BM机制的目标是生成二维的BM置信度图Mc,它是由具有不同起始边界和时间长度的BM对构建的。在这里插入图片描述
  • Boundary-Matching Network:
    BMN模型包含三个模块。Base Module 处理输入的特征序列,输出的序列特征被下列两个模块共享;Temporal Evaluation Module 评估视频中每个动作定位的开始和结束概率,生成边界概率序列;Proposal Evaluation Module 包含BM层,将特征序列转移到BM特征图,并包含一系列3D和2D卷积层,生成BM confidence map。
    在这里插入图片描述

挖个坑:读的云里雾里,看了一些博客,自己也还是没懂,后续会继续多次阅读。

2. MGG: Multi-granularity Generator for Temporal Action Proposal

论文目的——拟解决问题

两大类生成候选框的方法都有各自的优点和缺陷。

  • segment proposals: 由于片段是有规律的分布或手动定义的 (固定的),生成的候选框自然有不精确的边界信息。
  • frame actionness: 密集地评估每一帧的置信度分数,并将连续的帧作为候选框分组(grouping)。然而,这种方法往往对长的视频片段产生较低的置信度,导致遗漏真正的动作片段,从而导致低召回率。

贡献——创新

  • 提出了端到端MGG(multi-granularity generator),用于temporal action proposal,使用了一种新的整合视频特征和位置嵌入信息的(position embedding information)方法。
  • 提出了一个双线性匹配模型,以利用视频序列中丰富的局部信息( local information),然后通过以下SPP和FAP加以利用。
  • SPP是在一个具有横向连接的U型结构中实现的,以高召回率捕获各种跨度的候选框,而FAP评估每一帧作为起始点、结束点和中间点的概率
  • 通过利用帧动作性中的互补信息对段建议边界进行时间上的调整

实现流程

在这里插入图片描述

  • video visual features 首先与position embedding 信息相结合,形成视频表征video representations;
  • 利用BaseNet进一步提取视频特征;
  • 使用候选框产生器(Segment Proposal Producer, SPP)提取粗糙的候选框;
  • 使用图像动作得分产生器(Frame Actionness Producer, FAP)在精细尺度上获取每一帧的开始/结束/动作得分;
  • 最后利用时序边界调整模块(Temporal Boundary Adjustment, TBA)综合以上两步信息得到最终的准确的动作框输出。

详细方法

  • 利用ConvNet将视频序列video sequence:s 转化为视觉特征序列 visual feature sequence fn。通过计算不同波长的余弦和正弦函数,将视觉特征 fn 的位置信息嵌入到维度特征 pn 中。将fn和pn连结以生成新的特征向量(维度n*dl,dl=df+dp),输入BaseNet用ln = [fn, pn] 表示。【嵌入了位置信息来明确描述每个视觉特征的序列信息,这被认为有利于action proposal的生成】

  • BaseNet两层卷积输出的特征H1和H2,利用双线性模型融合H1和H2得到T。实现中使用因式分解加速计算:T-n表示第n个特征,并作为以下SPP和FAP的输入来生成候选框。
    在这里插入图片描述

  • Segment Proposal Producer:(SPP)
    在这里插入图片描述将产生的匹配视频表征T作为输入,SPP首先堆叠一个卷积层和两个最大池化下采样,以减少维度并相应增加感受野的大小。维度为ls/8的时间特征Tc被作为U型结构的输入。
    U-shape结构由contracting path、expansive path 和lateral connections组成。关于contracting path,通过重复的卷积与stride为2的下采样,得到特征金字塔(FP)。对于expansive path,在多层上采用stride为2的反卷积。通过lateral connections,来自扩展路径的高层特征与相应的低层特征相结合,不同尺度的特征金字塔具有不同的感受野,负责定位不同时间跨度的提议。
    对于得到的金字塔特征,在不同尺度的金字塔子特征上应用anchor以获取候选框,候选框进入后续的两个branch分别进行动作种类判断和边界回归。在动作种类判断branch,采用交叉熵损失函数;在边界回归branch,采用L1 smooth损失函数。
    实验证明SPP的U结构有助于将高层语义信息传递到较低层,这对检测持续时长较短的动作大有帮助。

  • Frame Actionness Producer:(FAP)
    FAP利用三个不共享权重的双卷积层获得各帧的开始/进行/结束得分。FAP采用交叉熵损失函数。与SPP产生的片段建议相比,FAP产生的帧动作性以更精细的方式对每一帧进行了密集的评估。

  • Temporal boundary adjustment: (TBA)
    在两阶段融合策略中实现的时间边界调整(TBA)模块,以提高帧动作性方面的片段建议的边界准确性。
    Stage1:对SPP得到的候选框进行NMS筛选,随后依据TAP得分调整候选框边界(将候选框开始/结束点调整至邻域内开始/结束得分最大的时间点),最终得到候选框集合。
    Stage2:利用动作进行得分,使用类似于TAG的分组方案,将具有中间概率高的连续帧归入区域,作为候选框集合φ(tag)。计算φ( p)中候选框p与φ(tag)中所有元素的tIoU,如果有tIoU大于阈值的,以φ(tag)对应框替换p

3. P-GCN: Graph Convolutional Networks for Temporal Action Localization

论文目的——拟解决问题

  • 现有的TAD方法在训练时对每个候选框单独处理,忽略了候选框之间的联系。

贡献——创新

  • 第一个利用候选框之间的关系进行视频中的时序动作定位的研究。
  • 为了对提案之间的互动进行建模,通过建立边(contextual edges、surrounding edges) 来构建一个提案图,然后应用GCN来做候选框之间的信息融合

实现流程

如下图所示,候选框2、3提供的上下文特征有利于候选框1的边界回归,候选框4提供的背景信息(eg动作发生的场景)有助于网络理解候选框1具体发生的动作。
在这里插入图片描述
若在现实世界中使用GCN,过大的图可能会导致计算十分低效,常使用采样 (sampling strategy) 等方法尽可能降低其计算复杂度,本文使用了node-wise的近邻方法SAGE。

详细方法

在这里插入图片描述

  • 构建一张有关候选框的图,每个候选框(proposal)是一个节点(node)两个候选框之间的联系(relation)是边(edge)
    联系分两种,一种是获取每个候选框前后的上下文信息(例如首图中P1和P2、P3的关系),称为contextual edge;一种是获取临近但不相交的候选框间的关联性(例如首图中P1和P4的关系),称为surrounding edge
    GCN的核心逻辑就是利用了候选框之间的联系,即采用临近框提供的上下文信息完善当前框的信息。使用两个独立的GCN分别进行候选框的分类和回归;在训练时使用了采样策略,可在保持性能的同时显著降低计算复杂度。PGCN的核心思路就是构建一张能合理拟合候选框关系的图。
  • 采用I3D提取视频特征,用TAG方法预先提取些候选框,将特征和候选框作为GCN的输入,用GCN输出的增强后的候选框特征进行动作种类和动作边界的合理预测。在此过程中,GCN的目标是学习候选框间的联系。在这里插入图片描述在这里插入图片描述
  • 简单地将所有候选框相连既会增加不必要的计算量,也会引入冗余信息和噪声。本文中只连接两种边,contextual edge和surrounding edge。
  • Proposal Graph Construction:
    contextual edge的连接条件是两个候选框的tIoU大于阈值,符合此情况的候选框大概率归属于同一动作。 基于此边,有重叠的候选框就会自动共享语义信息,这部分信息将在图卷积GCN中得到进一步处理;
    surrounding edge的连接条件是两个无重叠的候选框距离小于阈值(候选框距离 = 候选框中心点距离 / 两个候选框长度和),符合此情况的候选框大概率归属于不同动作,或归属于动作及其背景。基于此边,无重叠但临近的候选框就会跨动作实例地进行信息分享。
  • Graph Convolution for Action Localization:
    使用GCN在图的基础上学习候选框的联系并得到TAD结果。论文应用了K层GCN+ReLU的结构,每层结束后对网络输出和隐藏层的特征进行concate操作,将合并后的特征作为新一层的输入。
    在这里插入图片描述
    使用两个GCN分支分别进行种类和边界回归的任务:一个GCN branch处理候选框内部的特征(intern feature),通过softmax+FC层后输出动作种类;一个GCN branch处理延展后的候选框特征(intern & context feature),通过三个FC层分别输出开始边界/结束边界/动作完整性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/8061.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

稳压二极管的应用及注意事项

文章目录稳压二极管也被称为齐纳二极管 齐纳二极管和普通二极管的伏安特性曲线 齐纳二极管的工作原理 稳压二极管的伏安特性曲线的正向特性和普通二极管差不多,反向特性是在反向电压低于反向击穿电压时,反向申阳很大,反向漏电流极小。但是…

【学习笔记】AGC028/AGC007

AGC028 Removing Blocks High Elements 好仙啊。 我会转化!!问题转化为在原序列剩下的数中取ISISIS序列aaa,bbb,满足cx∣a∣cy∣b∣cx|a|cy|b|cx∣a∣cy∣b∣ 。对于没在a,ba,ba,b序列中的数,可以通过恰当放置使其不对前缀最大…

并发编程- synchronized,Lock及volatile的使用

文章目录并发编程的可见性问题解决方法synchronizedLockvolatile并发编程的可见性问题 多线程访问共享变量,造成线程不安全,最后的数值不对 public class VDemo {private static int num 0;public static void add() {num;}public static void main(St…

红队内网渗透神器--CobaltStrike安装教程

CobaltStrike介绍: CobaltStrike是一款渗透测试神器,被业界人称为CS神器。CobaltStrike分为客户端与服务端,服务端是一个,客户端可以有多个,可被团队进行分布式协团操作。 CobaltStrike集成了端口转发、服务扫描&…

Ubuntu 手动配置DNS

使用ping命令测试百度域名时发现,无法解析这个域名,说明当前系统上没有配置DNS服务器。配置DNS服务器的方式主要有以下两种: 目录 1、修改DNS配置文件 /etc/resolv.conf 2、修改网卡配置文件 /etc/network/interfaces 1、修改DNS配置文件 /e…

【附源码】计算机毕业设计JAVA宠物云寄养系统

【附源码】计算机毕业设计JAVA宠物云寄养系统 目运行 环境项配置: Jdk1.8 Tomcat8.5 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: JAVA myba…

Vue3 - toRef() 使用教程

介绍 它可用于为响应式对象上的 property 创建 ref,这样创建的 ref 与其源 property 保持同步,当改变源 property 时,将更新 ref ,反之亦然。 这段话有些晦涩难懂,其实用大白话说,就是当你使用 reactive 创…

如何拆分PDF成单页?这三个方法分享给你

很多朋友在平时的工作中,经常需要处理一些PDF格式的文件,但是如果PDF文件的占用空间太大,难以进行操作处理,这时我们就需要先将其拆分成多个小文件,那你们知道要怎么把PDF拆分成多个文件吗?今天我就来给大家…

RK3568平台开发系列讲解(LCD篇)DRM 显示框架

🚀返回专栏总目录 文章目录 一、DRM 显示框架二、DRM 驱动和 libdrm 交互过程2.1、GEM:2.2、KMS:三、DRM 驱动路径3.1、Uboot驱动路径3.2、内核驱动路径沉淀、分享、成长,让自己和他人都能有所收获!😄 📢DRM 英文名叫 Direct Rendering Manager,用来管理显示输出,图…

App Languages 批量导入管理flutter多语言文案

前段时间AppLanguages推出了iOS、Mac版的多语言文案导入功能,好几个小伙伴点赞,称其为“干货工具”,最近加班加点支持了flutter的多语言文案管理功能。 操作界面 批量导入 1)需要选择lib文件夹的路径,方便创建和寻找…

2022年11月华南师范大学自考本科-计算机信息管理课程实验—《数据库系统原理》实践题目

《 计算机信息管理课程实验——数据库系统原理 》课程试卷 答卷提交说明: 在mysql环境下填写SQL命令完成以下实践的题目,并返回执行结果的截图,答卷的答题格式如下,包括三部分:题目,SQL文本代码&#x…

【测试开发面试】6家企业真实面试,最终成功入职外企......

目录:导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜)前言 粉丝小A 测试开发的…

3、HTML——注释、转义字符、超链接标签、锚链接、功能性超链接、列表标签、有序列表、无序列表、定义列表

目录 一、注释标签 二、转义字符 1、空格&#xff1a; 2、大于号/小于号&#xff1a;>/< 3、引号&#xff1a;" 4、版权&#xff1a;© 5、商标&#xff1a;& 6、常见转义字符 三、超链接标签&#xff1a;a 四、锚链接 1、跳转同网页位置 2、…

铁威马NAS如何开启二次验证提高系统安全性

想到登录TNAS时更安全&#xff1f;直接开启OTP二次验证&#xff0c;通过 TNAS mobile生成的一次性密码登录NAS存储&#xff0c;简单设置&#xff0c;提升TOS系统访问安全性给你TNAS双重保护。 1.首先&#xff0c;确认你的TOS系统在5.0.176以上&#xff1b; 2.登录TOS 系统后&…

中国为什么要发展人工智能

“基建狂魔”,这是很多网友对中国的爱称。一方面是知道中国的基础设施建设速度很快,另一方面也是对中国整体实力的信心。疫情时期,武汉方舱医院只用了10多天就完成了建造,震惊世界,也让国人骄傲。 如果只看现在,你可能会觉得中国有这样的速度,是理所当然。但如果你知道最…

FPGA SATA IP控制器的SATA接口调试记录

本文档是基于FPGA K7 SATA IP控制器的SATA接口调试记录&#xff0c;接口遵循标准的ACHI协议。 操作系统内核版本&#xff1a;5.4.18 由于K7PCIE只有3个bar&#xff0c;AHCI协议规定SATA控制器是在第四个BAR上&#xff0c;另外由于PCIE配置空间设备类寄存器和能力寄存器未配置成…

数学之美系列 1.3w字精简版阅读笔记

目录 系列一&#xff1a;统计语言模型 (Statistical Language Models) 系列二&#xff1a;谈谈中文分词 系列三&#xff1a;隐含马尔可夫模型在语言处理中的应用 系列四&#xff1a;怎样度量信息 系列五&#xff1a;布尔代数与搜索引擎的索引 系列六&#xff1a;图论和网…

【深入理解Kotlin协程】协程中的Channel和Flow 协程中的线程安全问题

热数据通道 Channel Channel 实际上就是 个并发安全的队列&#xff0c;它可以用来连接协程&#xff0c;实现不同协程的通信&#xff0c;代码如代码清单所示 suspend fun testChannel() {val channel Channel<Int>() var i 0//生产者 发val producer GlobalScope.lau…

双立方插值原理分析

双立方插值原理分析双立方插值 : 其核心思想是利用三次多项式S(x)求逼近理论上最佳插值函数sin(x)/x&#xff0c;待求像素(x, y)的灰度值由其周围16个灰度值加权内插得到公式推导过程 上述图片中像素点的说明&#xff1a; 红色的点为16个真实存在的像素点 P 为双立方插值待插…

SCD1: 微服务概览

1.1简介 1.1.1 概念 集群&#xff1a; 它是一种物理形态&#xff0c;简单来讲就是把同一个业务部署到多个服务器上。而在接收到请求流量时&#xff0c;主要是通过负载均衡器&#xff0c;来进行流量分配。   分布式&#xff1a; 它是一种工作方式&#xff0c;将一个业务拆成多…