【论文简述】Learning Optical Flow with Adaptive Graph Reasoning(AAAI 2022)

news2025/7/19 0:17:20

一、论文简述

1. 第一作者:Haofei Xu

2. 发表年份:2022

3. 发表期刊:AAAI

4. 关键词:光流、图神经网络、自适应

5. 探索动机:现有光流估计方法主要解决基于特征相似性的匹配问题,少有工作研究如何显式推理场景中各部分的运动情况。

6. 工作目标:本文从一个新的角度提出基于图模型的方法,充分利用场景(上下文)信息对光流估计进行引导推理。

7. 核心思想:本文提出利用自适应图推理的光流估计模型(AGFlow),采用了一种适应性学习机制,使得图模型能够利用场景特征节点之间的关系信息来引导运动特征节点进行关系推理和信息交互,关键思想是将上下文推理从匹配过程中分离出来,并利用场景信息通过学习对自适应图进行推理来有效地辅助运动估计。

  • A novel graph-based approach for optical flow. To our knowledge, this is the first work that explicitly exploits scene information to assist in optical flow estimation by using graph techniques. The proposed AGFlow can go beyond the regular grids and reason over the graph space to achieve a better motion understanding, thus successfully handling different challenges in optical flow.
  • An adaptive cross-domain graph reasoning approach. In order to incorporate scene information, we generalize the learning to adapt mechanism from regular grids to the graph domain. Our designed graph adapter can fast adapt scene context to guide the global (motion) graph reasoning in a one-shot manner.

8. 实验结果:还行吧

The proposed AGFlow can effectively exploit the context information and incorporate it within the matching procedure, producing more robust and accurate results. On both Sintel clean and final passes, our AGFlow achieves the best accuracy with EPE of 1.43 and 2.47 pixels, outperforming state-of-the-art approaches by 11.2% and 13.6%, respectively. 

 9.论文&代码下载:

https://github.com/ megvii-research/AGFlow

https://arxiv.org/pdf/2202.03857.pdf

二、实现过程

1. 问题公式化

给定一对连续的输入图像,即源图像I1和目标图像I2,光流估计的任务是预测源图像I1和目标图像I2之间的密集位移场。基于深度学习的光流网络通常采用编码器-解码器管道,首先提取上下文特征fc,获得运动线索fm,然后基于融合特征fo,以循环/粗到细的方式进行光流预测。

AGFlow中,将解码器中的特征融合表示为基于图的推理和学习模型,其表述为fo = F(fc,fm)。具体来说,将模型定义为有向图G=(V,E),其中V表示节点集合,E表示边,G表示节点之间的连接和关系信息。运行t次图推理后,将更新后的节点映射回原始坐标空间,以预测位移场。

2. 光流的自适应图推理

上图描述了AGFlow用于光流的自适应图推理的概述。“4D CV”表示4D相关体,“C”表示连接,“L”表示加和。AGFlow基于RAFT开发。具体来说,给定一对输入图像I1I2,使用两个基于残差块的编码器来提取特征对(f1, f2)和上下文特性fc。然后在特征对上构造4个尺度的4D相关体。在循环改进框架中,利用四次卷积在多尺度匹配代价中从9×9区域捕获运动特征fm。然后,自适应图推理(AGR)模块以运动特征fm和上下文特征fc为输入,进行整体的运动推理。

节点嵌入。第一步是将规则坐标空间中的上下文和运动特征投影到图空间中。投影运算将位置信息与原始网格特征解耦,使生成的低维节点特征表示更紧凑,表达能力更强。这里我们将图模型中映射的节点V分为两组:上下文节点vc = Vc1,···,Vcn,包含关于形状的外观特征和场景上下文的区域信息,运动节点vm = Vm1,···,Vm,存储交叉图像匹配依赖的运动特征。

具体来说,给定来自编码器网络的上下文特征fc∈c×h×w和运动特征fm∈c×h×w,采用投影函数Pf→v(·)将表示相似的特征分配给同一节点。设vc∈C×Kvm∈C×K表示图空间中的初始节点嵌入,其中C表示通道号,K为节点数。

为了在一组区域上构建一个全局图,在网格空间中制定Pf→v(·)作为特征向量的线性组合,即v = Pf→v(f),因此生成的节点能够在整体原始特征图中聚合远距离信息。这是由

其中N(·)是对每个节点向量的通道维数进行的L-2归一化函数,Ff→v(f) ∈N×K将特征图映射到节点向量的投影权重建模。该方法可以用任意输入分辨率进行训练。在实践中,首先在f∈c×h×w上使用两次卷积将信道维度从c更改为K,从而得到分辨率为K×h×w特征图。然后应用重塑函数得到分辨率为N×K的Ff→v(f),其中N = h×w, K是不依赖于空间分辨率的超参数。因此,两种类型的节点嵌入可以由vc=Pf→v(fc)和vm=Pf→v(fm)产生。

自适应图推理。给定图空间中的节点嵌入v,用于图推理的邻接矩阵通常可以通过测量所有节点向量之间的相似性来生成,如A=vTv。对邻接矩阵A建模后,用图卷积网络进行图推理定义为

其中σ(·)是一个非线性激活函数,wG是图卷积的可学习参数。v^是用图推理更新的节点表示,它可以迭代增强通过更多的运行v^(t) = FG(v,A)(t),其中t表示更新迭代。

让我们考虑上下文节点和运动节点的表示属性。运动节点主要编码图像对之间的点的对应关系,而忽略了区域内像素之间的内部关系,而上下文节点则获得区域和形状表示的具有可分辨性的特征。因此,我们需要解决两个障碍:首先,上下文节点和运动节点之间存在不可避免的表示差距,这可能会阻碍直接整体图推理的有效信息传播。其次,运动节点缺乏对潜在位移场的形状或布局的约束,因此它们无法为单个图推理提供足够的上下文信息。

为了解决这一问题,提出了一种自适应图推理(AGR)模块,将上下文推理与匹配过程解耦,同时将场景上下文的区域和形状先验一次性转移到运动节点。关键思想是在全局上下文中利用形状和区域有判别性的表示指导具有自适应参数的运动邻接矩阵的学习。因此设计了一种邻接矩阵的自适应算法,以学习预测动态参数,根据特定于图像的上下文信息定制运动关系建模。

这是由

其中Θ(·)是一个参数学习器,A(·)表示一个配备了Θ(vc)的动态权重的上下文到运动图自适应器(GA)。在实践中,实现了Θ(·),具有softmax激活的线性投影函数。如下图所示,采用两层MLP实现A(·),其中应用第一个正则化线性函数和ReLU激活执行通道的学习,然后使用第二个具有自适应核Θ(vc)的线性函数执行节点交互,进行上下文-动作自适应关系学习。具体来说,给定上下文节点vc∈C×K,预测了自适应核Θ(vc)∈K×K在通道维度上卷积(C→K),然后转化为第二个线性函数的K × K形自适应权值,用于生成vm`。最后,在m`上进行点积相似度来预测

生成的参数Θ(vc)依赖于上下文节点来动态利用当前输入的形状和区域信息。这样,运动节点可以快速适应场景上下文,很好地利用转移的节点关系进行运动子图推理。因此,增强的上下文节点v^c(t)

类似地,运动节点v^m(t)

FAG(·)表示用自适应图卷积网络(AGCN)进行运动节点推理。

注意力读出。经过t次关系推理和状态更新后,提出了一个注意力读出模块,将增强的上下文节点vc(t)和运动节点v^m(t)从图空间投影回网格特征空间,使整体图交互模型与现有光流网络兼容。更新后的特征图既包含全局上下文信息,又包含局部像素级匹配代价,可以更好地预测光流场。将反投影表述为

其中Pv→f(·)是一个线性组合函数,将节点向量v^∈C×K映射到光流网络原始网格空间中的特征图f^∈C×N。在实际应用中,我们在节点嵌入过程中重用投影矩阵。投影矩阵包含像素到节点的分配,并保留空间细节,这对于恢复特征图的分辨率至关重要。此外,通过重用区域分配不涉及额外的参数,这也有助于减少计算开销。

上下文特征^fc由残差操作产生

其中α表示一个可学习的参数,初始化为0,并逐渐执行加权和。同样,运动特征^fm

考虑到增强的特征^fc^fm,对于特征融合一个的潜在障碍是上下文特征缺乏交叉图像匹配的对应信息,这可能导致全局位移的偏移,从而影响光流精度。为此,设计了一种注意力融合函数,该融合函数首先从运动特征^fm中学习预测一组尺度权重,然后利用它们对整个密集位移进行全局调整。具体来说,注意力融合函数定义为

其中是一个连接操作,FCA(·)是一个通道注意力函数,通过两个具有ReLUsigmoid激活的卷积实现。

7. 训练损失

7.1. 数据集

FlyingThings、Sintel、KITTI-2015、HD1K

7.2. 实现

通过PyTorch实现。训练策略延续RAFT。将上下文和运动节点的数量K设置为128。对于上下文图和运动图r,状态更新迭代t设置为2和1。模型是在2 NVIDIAGeForce GTX 2080Ti GPU上
训练,批大小设置为8。

7.3. 方法比较

 7.4. 参数量及时间

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/368923.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux学习(8)Linux文件与目录管理

以下内容转载自鸟哥的Linux私房菜 绝对路径与相对路径 绝对路径:路径的写法『一定由根目录 / 写起』,例如: /usr/share/doc 这个目录。相对路径:路径的写法『不是由 / 写起』,例如由 /usr/share/doc 要到 /usr/share…

智能化人机协作 遮挡情况下准确识别目标信息

研究背景 废旧产品(end-of-life products)的拆卸是工程全生命周期管理的一个基本步骤。在减少资源消耗和温室气体排放的同时,回收可重复使用的部件可能创造相当的经济价值,同时也能推动碳中和目标的实现。 但目前EoL的拆卸仍然严…

go module构建项目

在go 1.11版本中引入了Go Module内置的包管理模块,是GOPATH的替代品,集成了版本控制和软件包分发支持的功能。即go使用modules管理依赖,项目依赖构建时不需要再依赖GOPATH环境变量。 要使用go module首先要激活modules .升级go到1.11版本 .这…

活动报名:Tapdata Cloud V3 最新功能全解与核心应用场景演示

作为中国的 “Fivetran/Airbyte”, Tapdata Cloud 自初版公测以来,已累积10,000 注册用户。核心场景包括 Any Source → Any Target 的实时数据库同步、数据入湖入仓,以及通用 ETL 处理等。近期,功能特性全面优化的 Tapdata Cloud V3 也已开放…

python+django农业信息农产品商城电商管理系统-pycharm

(1)管理员功能需求 管理员登陆后,主要模块包括首页,个人中心,用户管理,种植户管理,农业技术管理,农产品类型管理,农资类型管理,农资产品管理,农产…

AI作画—山海经异兽

《山海经》成书于战国时期至汉代初期,与《易经》《黄帝内经》 并称为上古三大奇书。《山海经》包含着关于上古地理、历史、神话、天文、动物、植物、医学、宗教以及人类学、民族学、海洋学和科技史等方面的诸多内容,是一部上古社会生活的百科全书。 奇书…

C++设计模式(19)——访问者模式

亦称: Visitor 意图 访问者模式是一种行为设计模式, 它能将算法与其所作用的对象隔离开来。 问题 假如你的团队开发了一款能够使用巨型图像中地理信息的应用程序。 图像中的每个节点既能代表复杂实体 (例如一座城市)&#xf…

Python-datetime、time包常用功能汇总

目录基础知识时间格式有哪些?Python中的时间格式化时间戳datetimedatedatetimetimedeltatime常用获取今天凌晨字符串?将一个时间格式的字符串转为时间戳将一个时间戳转为指定格式的字符串全部代码参考基础知识 时间格式有哪些? 「格林威治标…

windows版 redis在同一局域网下互联

项目场景: 同一局域网下各个主机互相连接同一个redis 问题描述 无法连接 原因分析: 没有放行对方的地址 解决方案: 修改配置文件 最重要的一步如下 然后把 redis.windows.conf的文件也照上面的修改一下保持一致 然后安装一下redis服务这…

注意力机制详解系列(一):注意力机制概述

👨‍💻作者简介: 大数据专业硕士在读,CSDN人工智能领域博客专家,阿里云专家博主,专注大数据与人工智能知识分享。 🎉专栏推荐: 目前在写CV方向专栏,更新不限于目标检测、…

掌握饮食健康:了解你的宏量营养素摄入

谷禾健康 // 俗话说“病从口入”,我们的健康状况很大一部分取决于饮食。而食物基本上是由各种营养素构成的。 宏量营养素是人体大量需要的必需营养成分。宏量营养素指的是“三大”营养素:蛋白质、脂肪和碳水化合物,它们是我们饮食中的关键。 …

494.目标和

1. 回溯算法 这题和之前做的那些排列、组合的回溯稍微有些不同,你不需要每次选数据时都是for遍历去选择,很明显这是顺序选择的 比如 数组[0,1],target1; 递归数组,每个元素都 或者 - ,然后取最后结果为0…

Mysql是怎样运行的之Inno页介绍

一、InnoDB介绍 InnoDB是一个将表中的数据存储到磁盘上的存储引擎,所以即使关机后重启我们的数据还是存在的。而真正处理数据的过程是发生在内存中的,所以需要把磁盘中的数据加载到内存中,如果是处理写入或修改请求的话,还需要把内…

Java数据结构 —— 手写线性结构(稀疏数组、栈、队列、链表)

目录 稀疏数组 顺序表 链表 单向顺序链表 双向链表 双向循环链表求解约瑟夫环(Joseph) 栈 顺序栈 队列 顺序队列 顺序循环队列 稀疏数组 当一个数组中大部分值为0,或者相同时,可以采用稀疏数组的方式来保存,从而节约存储…

代码随想录算法训练营day41 | 动态规划 01背包问题基础 01背包问题之滚动数组

01背包问题基础 问题描述 有n件物品和一个最多能背重量为w 的背包。第i件物品的重量是weight[i],得到的价值是value[i] 。每件物品只能用一次,求解将哪些物品装入背包里物品价值总和最大。 举个栗子 背包最大重量为4。 物品为: 重量价值…

文本生成图像简述4——扩散模型、自回归模型、生成对抗网络的对比调研

基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功。 文本生成图像(text-to-image)是图像和文本处理的多模态任务的一项子任务,其根据给定文本生成符合描述的真实图像…

VUE3源码分析————rollup打包

文章目录什么是rolluprollup打包和webpack打包的区别rollup打包准备一、安装yarn开始rollup打包一、初始化二、package.json文件配置三、新建并配置打包文件夹四、下载rollup及打包执行文件五、文件大致分布![image.png](https://img-blog.csdnimg.cn/img_convert/66f1a85ff57d…

基于servlet学生宿舍管理系统

一、项目简介 本项目是一套javaWeb基于servlet学生宿舍管理系统,主要针对计算机相关专业的正在做bishe的学生和需要项目实战练习的Java学习者。 包含:项目源码、数据库脚本等,该项目可以直接作为bishe使用。 项目都经过严格调试,…

【Unity VR开发】结合VRTK4.0:创建物理按钮

语录: 如今我努力奔跑,不过是为了追上那个曾经被寄予厚望的自己 前言: 使用线性关节驱动器和碰撞体从动器可以轻松创建基于物理的按钮,以使交互者能够在物理上按下按钮控件,然后挂钩到驱动器事件中以了解按钮何时被按…

追梦之旅【数据结构篇】——详解C语言实现顺序队列

详解C语言实现顺序队列~😎前言🙌预备小知识🙌队列的概念及结构😊1.顺序队列头文件编写🙌2.Queue.c文件的编写🙌1)队列的初始化函数实现😊2)队列的销毁函数实现&#x1f6…