FPN(Feature Pyramid Network)详解

news2025/6/27 22:41:30

文章涉及个人理解部分,可能有不准确的地方,敬请指正

0. 概述

FPN,全名Feature Pyramid Networks,中文称为特征金字塔网络。它是2017年cvpr上提出的一种网络,主要解决的是目标检测中的多尺度问题。FPN通过简单的网络连接改变,在基本不增加原有模型计算量的情况下,大幅度提升了小物体检测的性能。

1. 产生动机

目标检测领域中,多尺度检测一直是个挑战,特别是小目标。以往(作者成文的时候,不是现在)检测主要分为三类:
在这里插入图片描述
a)使用单特征层。将特征提取网络最后一层输出的特征图,拿去做检测、识别,这是最早期,最一般的方法,该方法的缺点在于,最后一层特征图的尺寸一般都比较小了,无法准确定位目标。
b)多尺度输入。将输入图像resize成多个尺度,然后对每个尺度的图像提取出不同尺度的特征,这种方法计算量很大,因为要进行多次特征提取,即走了好几遍backbone。
c)多尺度特征。在特征提取时,保留中间层的不同尺度上的特征图,对每个尺度的特征图进行预测,这样做是不错的,但是高层特征图只具有丰富的语义信息,而低层特征图只有丰富的位置信息,没有将两者进行结合。

此时,文章作者就想到,如果能对方法 c)中不同尺度的特征图进行融合,岂不美哉,于是FPN就诞生了。

FPN的大致结构长这样:在这里插入图片描述
FPN对高层特征图(尺寸越小越高)进行上采样,然后跟上一层的特征图进行相加融合,这样就使融合后的特征图既包含高层的语义信息,又包含低层的结构信息。而且这样做只增加少量的计算量,是完全可以接受的。

所以简单来说,FPN主要有两个特点

  • 输出多尺度特征图,对不同尺度的目标都有不错的效果;
  • 不同尺度特征图之间进行了融合,使特征图同时具有高层语义信息和低层结构信息。

2. 网络结构详解

在这里插入图片描述
网络结构大致可以分为三个部分讲解,作者还分别给他们起了名

2.1 buttom-up

这一部分就是常见的特征提取网络,比如VGG,ResNet之类的,不过对特征图的输出尺度有要求,相邻的输出特征图尺度是2倍的关系。作者以ResNet为例,以conv2, conv3, conv4, conv5的输出作为输出特征图,假设他们的输出特征图分别是 { C 2 , C 3 , C 4 , C 5 } \{C2,C3,C4,C5\} {C2,C3,C4,C5},他们的尺度分别是输入图像的 { 1 4 , 1 8 , 1 16 , 1 32 } \{{\frac{1}{4}, \frac{1}{8},\frac{1}{16},\frac{1}{32}}\} {41,81,161,321},可以看到,相邻的特征图之间的尺寸是2倍的关系。

2.2 top-down

该部分进行特征的融合操作,具体流程是, C 5 C5 C5特征图进行2倍上采样,与 C 4 C4 C4相加,因为 C 5 C5 C5的尺寸是 C 4 C4 C4 1 2 \frac{1}{2} 21,所以进行2倍上采样之后,尺寸与 C 4 C4 C4一致,可以进行相加。然后将相加的结果再进行2倍上采样,与 C 3 C3 C3相加,以此类推。每一层融合后的特征图都要拿去做预测。

2.3 lateral

这一部分定义了融合操作的具体操作
1、每一层的输出特征图要先经过一个 1 × 1 1×1 1×1的卷积核,为啥呢,为了将每个特征图的通道数变为相同,因为高层特征图的通道数往往比较多,而低层特征图的通道数比较少,即使进行了上采样也无法进行相加
2、2倍上采样采用的是最简单的最近邻插值
3、相加操作就是对应元素相加,这里要与yolov3的concatenate操作做区别,concatenate是拼接,会增加通道数的,而FPN里的融合不会改变特征图的尺寸

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1583899.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Android】【root remount】【3】remount 文件详细信息获取

前言 我们在root & remount 设备后,push相关文件到systm 、vendor、product 等目录进行调试,那么我们push的文件被保存在什么地方呢? 以及我们FWS、app侧如何过去push 的文件信息呢? remount push 文件保存 push 文件保存的…

【汇编语言实战】输入2个整数求最大公约数

C语言描述该程序流程&#xff1a; //辗转相除法 #include <stdio.h> int main() {int a,b;scanf("%d %d",&a,&b);while(a-b!0){if(a>b){aa-b;}else{bb-a;}}printf("%d",a); }汇编语言&#xff1a; include irvine32.inc .data a dword …

rk3588开发板ubuntu系统下安装ftp服务器及windows客户端建立连接

出发点:两台主机之间通过ftp进行文件传输 一.服务端安装 在FileZilla官网上找到服务端版本: 支持x86-64 查询rk3588的芯片架构: uname -m 芯片架构为aarch64,因此该软件不支持。 更换为:vsftpd 操作步骤为: 1)安装:sudo apt install vsftpd 2)启动:sudo syste…

DataX 数据库同步部分源码解析

在工作中遇到异构数据库同步的问题,从Oracle数据库同步数据到Postgres&#xff0c;其中的很多数据库表超过百万&#xff0c;并且包含空间字段。经过筛选&#xff0c;选择了开源的DataXDataX Web作为基础框架。DataX 是阿里云的开源产品&#xff0c;大厂的产品值得信赖&#xff…

Day1 省选衔接题 思路总结

Day1 省选题 思路 取数 可反悔的贪心。我们开一个双向链表记录此时每个数的前/后一个数是什么。一个简单但不一定正确的贪心策略即为&#xff1a;每次都取走当前值最大的且可取的数&#xff0c;并更新列表。考虑如何使这个贪心思路正确。 设 p r e x pre_x prex​ 表示 x x …

【Java基础题型】逆序输出字符串

将一个字符串str的内容颠倒过来&#xff0c;并输出。str的长度不超过100个字符。 输入格式 输入包括一行。 第一行输入的字符串。 输出格式 输出转换好的逆序字符串。 样例输入 I am a student 样例输出 tneduts a ma I 涉及较有意思的知识点&#xff1a; &#xff08;…

el-table合计行添加按钮操作

针对于el-table中合计功能中的操作栏也可以按钮&#xff0c;并且可以添加点击事件 ElTable源码里footer部分是&#xff0c;这种方式渲染的&#xff0c;也就是 支持传递VNode。使用h第一个参数传递 组件&#xff0c;可以把组件转成VNode&#xff0c;比如现在要在右下角加一个 详…

打卡--MySQL8.0 四 (索引及执行计划)

一、索引的创建与使用 1、索引的分类 MySQL的索引包括普通索引、唯一性索引、全文索引、单列索引、多列索引和空间索引等。 &#xff08;1&#xff09;从 功能逻辑 上说&#xff0c;索引主要有 4 种&#xff0c;分别是普通索引、唯一索引、主键索引、全文索引。 &#xff08;…

Redis(持久化 -- RDB AOF)

持久化 通常我们认为持久化为: 重启进程/重启主机之后, 数据仍然存在不丢失 把数据存储在硬盘上 – 持久 把数据存储在内存中 – 不持久 Redis 持久化 redis 是一个内存数据库, 也就是说本身是不持久的(但是快[效率高]), 于是 Redis 提供了持久化机制 — RDB 和 AOF 二者都是对…

day55 最长递增子序列 最长连续递增子序列 最长重复子数组

题目1 300 最长递增子序列 题目链接 300 最长递增子序列 题意 找到整数数组nums的最长严格递增子序列的长度&#xff08;子序列并不改变原始的顺序&#xff0c;但是可以删除元素&#xff09; 动态规划 动规五部曲 1&#xff09;dp数组及下标i的含义 dp[i] 表示以nums[i…

SRIO学习(1)SRIO介绍以及IP核详解

文章目录 一、SRIO介绍1.1、概要1.2、RapidIO与传统嵌入互连方式的比较1.3、串行RapidIO协议&#xff08;SRIO&#xff09; 二、RapidIO协议结构及包格式2.1、逻辑层2.2 传输层2.3 物理层 三、IP核详解3.1、逻辑层3.1.1 I/O端口3.1.2 消息&#xff08;Message&#xff09;端口3…

Linux操作系统上启动redis服务

一、下载安装redis 网上找教程。 二、修改redis.conf配置文件 1.先进入redis目录 2. ls查看文件 3.修改redis.conf中的配置&#xff0c;将daemonize no改成daemonize yes。 输入指令进行修改修改 vi redis.conf 保存退出。 三、启动redis服务 在下载的redis目录下执行以…

卷积通用模型的剪枝、蒸馏---剪枝篇(此处以deeplabv3+为例,可根据模型自行定制剪枝层)

之后的两篇文章是对前段时间工作的一个总结。 一、环境配置 1.1、文章以b导的代码为模板,环境配置比较简单(第二篇蒸馏篇结束后会放置剪枝蒸馏配置好的百度网盘链接),其他算法自行配置,在剪枝之前,需要保证算法能够在本地跑通。 B导链接: https://github.com/bubbliiiin…

分享 GoLand 2024.1 激活的方案,支持JetBrains全家桶

大家好&#xff0c;欢迎来到金榜探云手&#xff01; GoLand 公司简介 JetBrains 是一家专注于开发工具的软件公司&#xff0c;总部位于捷克。他们以提供强大的集成开发环境&#xff08;IDE&#xff09;而闻名&#xff0c;如 IntelliJ IDEA、PyCharm、和 GoLand等。这些工具被广…

串的存储结构

串其实是一种特殊的线性表&#xff0c;用什么样的存储结构实现线性表就可以类似的用什么样的方法实现串 一、串的顺序存储 1.静态数组&#xff08;定长顺序存储&#xff09;&#xff1a; //定义一个静态数组实现#define MAXLEN 255 //预定义最大串长为255 typedef st…

代码随想录35期Day08-字符串

344.反转字符串 位运算 func reverseString(s []byte) {l : 0r : len(s) - 1for l < r {s[l] ^ s[r]s[r] ^ s[l]s[l] ^ s[r]lr--} }541. 反转字符串II 没技巧 func reverseStringRange(s []byte, l int, r int) {if r > len(s) {r len(s) - 1}for l < r {s[l] ^…

【智能算法】火鹰优化算法(FHO)原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.结果展示4.参考文献 1.背景 2023年&#xff0c;M Azizi等人受到自然界火鹰狩猎行为启发&#xff0c;提出了火鹰优化算法&#xff08;Fire Hawk Optimizer, FHO&#xff09;。 2.算法原理 2.1算法思想 FHO使用特殊的控制和捕…

DepthFormer论文详解

摘要 本文旨在解决有监督单目深度估计的问题&#xff0c;我们从一项细致的试点研究开始&#xff0c;以证明远程相关性对于准确的深度估计至关重要。我们建议使用Transformer以有效地注意力机制对这种全局上下文进行建模。我们还采用一个额外的卷积分支来保留局部信息&#xff0…

使用Datax自定义采集组件Reader/Writer实现国产数据库支持以及_Datax数据清洗/过滤规则功能自定义---大数据之DataX工作笔记007

我们基于datax来做的自己的数据采集系统,现在基本的数据采集已经实现了,也就是调用datax的数据采集能力,实现在已支持的数据库之间同步数据.我们是基于datax-web实现的,里面都有开源的代码了,可以分析以后拿过来用,这个过程并不复杂,而且,结合xxljob的web那个开源项目,也可以让…

wps可以打钩的框框

方法一&#xff1a; 输入2611&#xff0c;按下altx 方法二&#xff1a; R 选中后->开始->字体wingdings字体