(论文速读)UniConvNet: 意尺度卷积神经网络在保持渐近高斯分布的同时扩展有效接受野

news2026/5/7 2:49:35
论文题目UniConvNet: Expanding Effective Receptive Field while Maintaining Asymptotically Gaussian Distribution for ConvNets of Any Scale任意尺度卷积神经网络在保持渐近高斯分布的同时扩展有效接受野会议ICCV2025摘要具有大有效感受野(ERF)的卷积神经网络(ConvNets)仍处于早期阶段但受到高参数和FLOPs成本以及中断渐近高斯分布(AGD)提供ERF的限制已显示出良好的有效性。本文提出了一种替代范例:与其仅仅使用非常大的ERF不如通过适当组合较小的内核(如7×7, 9×9, 11×11)来扩展ERF同时保持AGD提供ERF这样更有效和高效。本文介绍了一种三层感受野聚合器并从感受野的角度设计了一层算子作为基本算子。在保持ERF的AGD的前提下通过所提出的模块栈将ERF扩展到现有的大核卷积神经网络的水平。使用这些设计我们提出了一个通用的模型任何规模的ConvNet称为UniConvNet。在ImageNet-1K、COCO2017和ADE20K上进行的大量实验表明UniConvNet在各种视觉识别任务上的表现优于最先进的cnn和ViTs无论是轻量级模型还是大规模模型都具有相当的吞吐量。令人惊讶的是UniConvNet-T在30M参数和5.1G FLOPs下达到了84.2%的ImageNet top-1精度。此外UniConvNet-XL在大数据和大型模型上也显示出了具有竞争力的可扩展性在ImageNet上获得了88.4%的前1准确率。代码和模型可在https://github.com/ai-paperwithcode/UniConvNet上公开获得。UniConvNet在保持渐近高斯分布的同时扩展有效感受野1. 背景与动机卷积神经网络ConvNets在计算机视觉领域有着悠久而辉煌的历史。然而随着 Vision TransformerViT的兴起如何让卷积网络也能建立长程依赖成为了研究热点。一个核心思路是扩大有效感受野Effective Receptive FieldERF——让每个输出像素能看到更大范围的输入区域。1.1 已有工作的两条路线路线一堆叠小核如3×3以 ResNet 为代表的传统方案通过大量堆叠3×3卷积来间接扩大感受野。这类方案的 ERF 遵循渐近高斯分布Asymptotically Gaussian DistributionAGD——越靠近输出像素中心的输入像素影响越大这与人类视觉直觉一致如图1(A)所示。然而其 ERF 范围较小难以捕获全局上下文。路线二直接使用超大卷积核近年来RepLKNet31×31核、SLaK51×51稀疏核、UniRepLKNet 等工作通过重参数化、参数共享或稀疏化技术将卷积核直接放大到极大尺寸ERF 范围显著扩大。但代价是参数量和计算量FLOPs极高破坏了 AGD——ERF 在奇怪位置出现高响应或不同尺度像素的影响趋于均匀见图1(B)(C)。【配图位置图1——ResNet-101、SLaK-T、UniRepLKNet-T、UniConvNet-T 的 ERF 热力图对比展示 AGD 特性与 ERF 范围的差异】可能的意思是A) ResNet-101— 小核堆叠的典型代表热力图呈现出非常标准的同心圆渐变从中心向外颜色均匀变暗。这就是理想的渐近高斯分布AGD离中心越近影响越大离中心越远影响越小过渡自然连续。缺点是亮区范围很小说明感受野范围有限看不远。(B) SLaK-T— 51×51稀疏大核热力图出现了奇怪的十字形或星形亮斑说明某些远离中心的特定位置反而比近处的像素影响更大。这就是AGD被破坏的典型表现——影响分布不符合近大远小的直觉模型在乱看。(C) UniRepLKNet-T— 超大核重参数化热力图的亮区范围非常大感受野很广但整体近乎均匀的灰色没有明显的从中心向外递减的层次感。这意味着远处和近处的像素影响差不多大AGD同样被严重破坏相当于模型看得很远但不知道该重点看哪里。(D) UniConvNet-T— 本文提出的方法热力图呈现出清晰的多层同心圆渐变且亮区范围比ResNet-101大得多。这说明UniConvNet同时做到了两件事感受野足够大能看得远同时保持了良好的AGD越近越重要。论文把这种多层清晰渐变称为more stepped colour area层次越多越分明说明AGD质量越好。1.2 核心问题本文作者提出一个关键问题是否存在一种合适的小核组合方式能在扩大 ERF 的同时保持 ERF 的渐近高斯分布答案是肯定的。作者提出了一种全新范式与其使用极大的 ERF不如通过适当组合较小的卷积核如7×7、9×9、11×11来扩展 ERF 同时保持 AGD这样更高效也更有效。2. 方法详解本文的核心贡献是设计了感受野聚合器Receptive Field AggregatorRFA并以此为基础构建了通用卷积网络UniConvNet。2.1 层操作算子Layer OperatorLOLO 是 RFA 的基本构建单元其设计出发点是直接从感受野视角出发来建模像素的影响分配。每个 LO 有三个不同的输入分支通过两个子模块相互配合放大器AmplifierAmp将输入经过大核K×K深度卷积 GELU 激活后与做逐元素乘法这一操作的效果是在 K×K 感受野范围内每个位置的像素被该位置在中的值所加权放大结果扩展了感受野范围同时放大了感受野内显著像素的影响。判别器DiscriminatorDis将输入经过大核K×K和小核k×kk3深度卷积处理为大感受野引入来自小尺度新像素的影响建立两层判别性AGD结果在大感受野的基础上靠近中心的小尺度像素也保有更强的响应。最终Amp 和 Dis 的输出被拼接得到具有双层 AGD 的输出特征图通道数也相应递增以供后续层使用。【配图位置图3右——Layer Operator 的结构示意图展示 Amp 和 Dis 两个子模块的连接关系】2.2 感受野聚合器RFARFA 将多个 LO 按金字塔方式递归组织其核心设计如下输入沿通道维度被分成N1 个头先进入 LO 1输出通道数从增长到递归进入 LO 2与对应的交互输出通道继续递增……以此类推形成金字塔递增的通道结构大幅降低了参数量和 FLOPs每个头在进入 LO 之前先经过 1×1 卷积投影以增强特征多样性。这种金字塔结构直接对不同尺度的感受野分配判别性影响使得从中心到边缘形成连续的 AGD。【配图位置图3左——RFA 整体结构示意图展示 N1 个头的金字塔通道递增方式】2.3 三层 RFA 的感受野流动针对224×224分辨率的输入图像作者采用 N3 的三层 RFA渐进大核尺寸按公式计算依次为7×7、9×9、11×11小核固定为3×3。感受野的扩展过程如下LO 17×7卷积建立第一层大感受野3×3卷积引入小尺度判别信息形成双层AGDLO 2在LO 1输出的感受野基础上9×9卷积继续扩展再次引入3×3小尺度信息LO 311×11卷积进一步扩展最终形成四层感受野从中心到边缘完整遵循AGD。整个过程类似滚雪球——每一层 LO 都在上一层感受野的基础上进行放大和判别最终在一个轻量级模块内达到与大核网络相当的 ERF 范围同时保持良好的 AGD。【配图位置图4——三层RFA的感受野流动示意图直观展示7×7→9×9→11×11的逐层扩展过程】为什么选7×7、9×9、11×117×7 比3×3、5×5 提供大得多的感受野是扩展 ERF 的有效起点11×11 能在主特征提取阶段Stage 3 的14×14特征图保持合理的覆盖范围padding5 时角落像素最多覆盖特征图的四分之一避免中心像素过度重叠消融实验表明见表7(7,9,11) 是效率与效果的最优配置(5,7,9) 对 ERF 扩展不足(9,11,13) 对深层模型的参数效率较低极大核(27,29,31)则既不高效也不有效。【配图位置表7——核尺寸和层数的消融实验结果对比不同配置下的参数量、FLOPs和Top-1精度】2.4 UniConvNet 整体架构UniConvNet 以 InternImage 为基础骨干将三层 RFA 替换其中的关键卷积操作并采用与 ConvNeXt、InternImage 类似的金字塔架构Stem 块由两个步长为2的3×3卷积 LayerNorm GELU 构成将输入分辨率降低4倍下采样块LayerNorm 步长为2的3×3卷积每阶段将分辨率减半基础块包含三个残差子组件——三层RFA、修改版DCNV3去除softmax归一化、前馈网络FFN完整模型从 UniConvNet-A3.4M参数到 UniConvNet-XL226.7M参数覆盖全尺度需求。【配图位置图5——UniConvNet整体架构图展示四个Stage、Stem、下采样块及基础块的组成以及各变体的通道配置】3. 实验结果3.1 ImageNet-1K 图像分类轻量级模型对比UniConvNet 的轻量级系列在相近参数量和FLOPs下全面超越现有纯CNN和混合ViT模型。以代表性结果为例UniConvNet-N113.1M参数1.88G FLOPs82.2%Top-1超越同量级的UniRepLKNet-N18.3M81.6%在更少参数下获得更高精度UniConvNet-N215.0M参数2.47G FLOPs82.7%超越HorNet-T23.0M83.0%的同时参数仅为其65%UniConvNet-N319.7M参数3.37G FLOPs83.2%与UniRepLKNet-T31.0M并列但参数量仅为其63%。【配图位置表1——轻量级变体在ImageNet验证集上的分类性能对比涵盖ViT和CNN各系列代表模型】大规模模型对比UniConvNet-T30.3M参数5.1G FLOPs84.2%超越 InternImage-T83.5%、FlashInternImage-T83.6%、SLaK-T82.5%在相近参数下领先至少0.6个百分点UniConvNet-S50M参数8.48G FLOPs84.5%超越 FlashInternImage-S84.4%UniConvNet-B97.6M参数15.9G FLOPs85.0%超越 InternImage-B84.9%UniConvNet-L201.8M预训练于ImageNet-22K88.2%与MOAT-3188.0M141.2G FLOPs持平但FLOPs更低UniConvNet-XL226.7M预训练于ImageNet-22K88.4%超越 InternImage-XL88.0%和 FlashInternImage-L88.1%。【配图位置图2——UniConvNet与其他模型的参数量-精度及FLOPs-精度气泡图对比直观展示帕累托前沿优势】【配图位置表2——大规模变体在ImageNet验证集上的分类性能对比】3.2 目标检测与实例分割COCO2017使用 RetinaNet重型检测头和 SSDLite轻型检测头在 COCO val2017 上评估轻量级变体UniConvNet-A在 SSDLite 框架下达到29.5 mAP超越同量级的 MobileViTv1-Small27.7 mAP和 EMO-5M27.8 mAPFLOPs更低1.3G vs. 3.4GUniConvNet-N2在 RetinaNet 框架下达到45.5 mAP超越 Shunted-S45.4 mAP32.1M参数且参数更少26.0M。【配图位置表3——RetinaNet和SSDLite框架下的目标检测结果对比】使用 Mask R-CNN 和 Cascade Mask R-CNN 评估大规模变体UniConvNet-T在 Mask R-CNN 1× 下达到48.2 box AP超越 FlashInternImage-T48.0在 3× 训练下达到50.1 box AP实例分割达到44.5 mask APUniConvNet-L在 Cascade Mask R-CNN 3× 下达到56.6 box AP和48.9 mask AP超越 FlashInternImage-L56.7 box AP48.9 mask AP中的 mask AP持平box AP微低但参数相近254.8M vs. 277M。【配图位置表4——Mask R-CNN和Cascade Mask R-CNN框架下的目标检测与实例分割结果对比】3.3 语义分割ADE20K轻量级模型DeepLabv3 / PSPNetUniConvNet-A在 DeepLabv3 下达到38.2 mIoU超越 EMO-5M37.8 mIoU参数更少7.9M vs. 10.3MUniConvNet-N2达到42.9 mIoU以22.5M参数超越 ResNet-5042.4 mIoU68.2M参数参数量仅为后者的33%。【配图位置表5——DeepLabv3和PSPNet框架下的语义分割结果对比】大规模模型UperNetUniConvNet-T达到50.3 mIoU单尺度超越 FlashInternImage-T49.3和 UniRepLKNet-T48.6参数相近UniConvNet-S达到52.2 mIoU超越 FlashInternImage-S50.6和 MogaNet-L50.9UniConvNet-L达到55.1 mIoU单尺度超越 InternImage-XL55.0368M参数而 UniConvNet-L 仅有234M参数。【配图位置表6——UperNet框架下ADE20K语义分割结果对比】4. 深入分析4.1 为什么 AGD 比 ERF 范围更重要作者在附录 A 中给出了深刻的分析。通过对多组模型的 ERF 可视化图6可以得出以下结论MogaNet-S vs. ConvNeXt-T两者 ERF 范围相近但 MogaNet-S 的 AGD 更好小尺度像素响应更强→ MogaNet-S 性能更优。这说明在 ERF 范围相当时AGD 质量是决定性因素。SLaK-T vs. UniConvNet-T两者 ERF 范围相当但 UniConvNet-T 的 AGD 更好 → UniConvNet-T Top-1精度高出1.7 个百分点。UniRepLKNet-T拥有更大的 ERF但 AGD 严重劣化小尺度像素暗区明显→ 尽管 ERF 更大但受限于高参数和FLOPs综合效率不如 UniConvNet-T。RepLKNet-31B vs. UniConvNet-B前者 ERF 更大但 AGD 较差 → Top-1精度低1.0 个百分点。【配图位置图6——多模型ERF热力图对比UniConvNet-T、MogaNet-S、SLaK-T、ConvNeXt-T、UniRepLKNet-T、ResNet-101、UniConvNet-B、RepLKNet-31B直观展示AGD质量差异】核心结论在 ERF 范围可比的情况下对小尺度像素保持正确的渐近高斯分布比单纯扩大 ERF 范围更重要。4.2 效率分析从各子模块的参数量和FLOPs分布表8可以看出三层 RFA 相比修改版 DCNV3 具有更少或相近的参数和计算量这意味着引入大感受野几乎不带来额外开销。【配图位置表8——UniConvNet各变体中不同子模块的参数量/FLOPs分布】4.3 消融实验模块组合的有效性通过对 UniConvNet-P05.2M参数、N215M和T30M三个规模的消融表9配置UniConvNet-P0 Top-1三层RFA Modified DCNV3完整模型79.1%仅三层RFA78.4%仅 DCNV4FlashInternImage78.5%三层RFA DW 3×378.9%DW 7×7 DW 3×3ConvNeXt风格77.0%仅 DW 3×377.0%几个关键观察三层 RFA 单独使用即可达到与 DCNV4 相近的性能78.4% vs. 78.5%证明其特征感知能力不依赖于传统小核卷积将 Modified DCNV3 替换为 DW 3×3 仅下降 0.2%说明 DCNV3 的作用是锦上添花将三层 RFA 替换为 DW 7×7 性能骤降至77.0%充分证明三层 RFA 设计的有效性在15M和30M规模上这一结论完全一致体现了三层 RFA 的跨尺度泛化能力。【配图位置表9——不同大核/小核卷积组合的消融对比实验】4.4 吞吐量分析在 A100 GPUPyTorch 1.13FP32/FP16上测试推理速度表10UniConvNet-T1480/1825 images/sFP32/FP16相比 InternImage-T1409/1746提升约5%而精度从83.5%提升至84.2%UniConvNet-XL168/228 images/s相比 InternImage-XL125/174提升约34%FP32精度从88.0%提升至88.4%。【配图位置表10——UniConvNet与代表性模型的推理吞吐量对比】5. 总结与展望UniConvNet 提出了一条清晰的设计哲学扩展有效感受野不必依赖极大卷积核通过多层较小核的合理组合同样可以达到甚至超越大核网络的效果同时避免 AGD 的破坏和参数的膨胀。三层RFA的核心贡献在于以7×7、9×9、11×11三种渐进核尺寸构建出四层感受野的连续AGD通过放大器Amp和判别器Dis的协作实现多尺度影响的精确分配金字塔通道递增结构确保参数效率使得轻量到超大规模模型均可受益。从ImageNet分类、COCO检测分割到ADE20K语义分割的全面实验表明UniConvNet 在各规模、各任务上均达到了最先进水平真正实现了任意规模的通用卷积网络这一目标。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2590140.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…