【语义分割】12个主流算法架构介绍、数据集推荐、总结、挑战和未来发展

news2026/3/18 10:33:53
背景语义分割是将图像中的每个像素按其语义类别进行分类从而实现像素级别的语义理解。其在自动驾驶、医学图像、结构损伤检测等领域有着广泛的应用。1.主流算法架构1.1 U-Net论文地址https://arxiv.org/abs/1505.04597U-Net2015年由Ronneberger等人提出,是经典的编码-解码架构。其中编码器部分利用卷积层和池化层逐步提取输入图像的特征获取输入图像特征的潜在表示。解码器部分使用转置卷积和卷积从编码器的各级分辨率级别还原目标的细节特征。U-Net因其结构简单、易于训练和有效性而受到青睐同时也为图像分割任务提供了一个强大的基准模型。1.2 SegNet论文地址https://arxiv.org/abs/1511.00561SegNet是2016年由Cambridge提出旨在解决自动驾驶的图像语义分割深度网络。SegNet与U-Net网络类似主要的区别在于SegNet提出了记录池化的位置反池化时恢复。SegNet在解码恢复信息时不再和编码器对应的分辨率级别进行拼接操作而是直接进行转置卷积。1.3 PSPNet论文地址https://arxiv.org/pdf/1612.01105.pdfPSPNet是2017年提出的一种用于语义分割的深度卷积神经网络。其架构的主要特点是金字塔池化模块Pyramid Pooling Module。PSPNet最大的创新是引入金字塔池化模块通过不同尺度的池化操作获得全局和局部信息。输入特征图被分割为不同大小的区域并进行池化操作以提取每个区域的特征。不同池化尺度下的特征被级联在一起形成了一个更加丰富和多样的特征表示。1.4 UNet论文https://arxiv.org/pdf/1807.10165.pdfUnet于2018年提出Unet继承了Unet的结构同时又借鉴了DenseNet的稠密连接方式。其主要有四个结构特点1密集连接的多级UNet结构UNet采用了分层的、多级的UNet结构。每个UNet模块都由一个编码器和多个解码器组成。每个解码器的特征图与上一级解码器的所有特征图相连接形成了一种密集连接的结构有助于更好地传递和利用不同层级的信息。2嵌套连接与跳跃连接UNet结构通过嵌套连接将不同分辨率的特征图相互连接以多层级方式传递信息。跳跃连接也被保留在不同层次使得不同分辨率的信息可以更有效地在编码器和解码器之间传递。3特征重组和特征融合每个UNet模块内部通过特征重组和特征融合操作将不同分辨率和不同层级的特征图结合起来增强了特征表达的多样性和丰富性。4多尺度特征提取UNet在编码器和解码器中都包含了多尺度特征提取模块有助于捕获不同尺度下的语义信息。1.5 DeepLabv3论文https://arxiv.org/pdf/1802.02611v3.pdfDeepLabv3是由Google于2018年提出的图像语义分割模型旨在解决语义分割任务中的精度和效率问题。它是DeepLab系列模型的最新版本结合了深度卷积网络和空洞卷积网络的优势并引入了空间金字塔池化模块(ASPP)和解码器模块利用多尺度信息增强模型的性能有助于解决对象尺度不一致的问题。DeepLabv3整体来说也是一个编码-解码架构其中编码器中的DCNN是可以按照具体任务需求修改的backbone。举例来说DCNN可以是高效轻便的MobileNet、EfficientNet也可以是深度残差网络ResNet也可以是经典的Xception、Inception等网络。具体的架构方案需要根据当前的任务做具体的设计和调整。1.6 HRNet论文https://arxiv.org/pdf/1904.04514.pdfHRNet于2019年提出作者通过通过聚合来自所有并行卷积的上采样的表示来增强高分辨率表示而不是仅聚合来自高分辨率卷积的表示。这种架构设计模式是模型有更强的表征能力。其架构的主要特点如下1多分辨率特征金字塔HRNet在网络的不同分支中保持多个分辨率的特征图同时通过高分辨率和低分辨率的交互保留了更多的细节信息。通过多个分支每个分支都以不同的分辨率来处理输入图像然后进行特征融合以综合不同分辨率的信息。2多层级信息融合HRNet内部进行多层级的信息融合使得不同分辨率特征图之间可以相互交流和融合充分利用不同分辨率的特征。3高分辨率信息保留通过保留高分辨率特征图HRNet在姿态估计和图像分割任务中能够更好地捕获和利用细节信息避免了传统网络中由于下采样导致的低分辨率特征损失问题。4通道交流HRNet在不同分辨率特征图之间引入了通道交流channel fusion使得不同分辨率的特征图可以相互交流和融合提高了特征的丰富性和表达能力。1.7 U2NetU2Net于2020年发表于CVPR。U2Net的主体是一个两层嵌套的U型结构网络中的每个编码器和解码器模块也是类似UNet的结构也就是在大的UNet中嵌入了一堆小UNet。其架构的主要特点如下1ReSidual U块RSU中混合了不同大小的感受野它能够从不同的尺度捕获更多的上下文信息。2RSU块中使用了池化操作它增加了整个架构的深度而不显著增加计算成本。这种架构使得使用者能够从头开始训练深度网络而无需使用图像分类任务中的主干backbone。1.8 HRNet-OCR论文https://arxiv.org/pdf/1909.11065.pdfHRNet-OCR于2021年提出它在HRNet的基础上进一步引入了OCR Object-Contextual Representations机制。这种OCR机制是一种简单而有效的对象上下文表示方法帮助网络更好地理解图像中不同对象之间的关系和上下文信息。OCR模块在每个HRNet分支上引入了空间注意力机制Spatial Attention和对象级别的上下文信息建模。空间注意力机制有助于网络学习不同区域的重要性对象级别的上下文信息帮助网络更好地理解对象之间的联系。1.9 SETR论文地址https://arxiv.org/pdf/2012.15840.pdfSETR于2021年提出是基于ViT来进行语义分割的第一个代表模型。它提出以纯Transformer结构的编码器来代替CNN编码器改变现有的语义分割模型架构。其架构的主要特点如下1Image to sequence 图像序列化方法作者参考了ViT的做法即对输入图像进行切片处理将每一个2D的图像切片patch视为一个“1D”的序列作为整体输入到网络当中。2Transformer: 通过将序列输入到Transformer架构可进行特征的提取其主要包含两个部分Multi-head Self-Attention (MSA) and Multilayer Perceptron (MLP) blocks。3解码作者给出了三种解码上采样方式即朴素上采样、渐进上采样、多级特征融合类似于特征金字塔。1.10 SegFormer论文地址https://arxiv.org/pdf/2105.15203.pdfSegFormer于2021年提出其架构的主要特点如下1patch的局部连续性之前ViT做patch embedding时每个patch都是独立的而SegFormer对patch设计成有重叠的保证局部连续性。2多尺度融合Encoder输出多尺度的特征Decoder将多尺度的特征融合在一起这使得模型能够同时捕捉高分辨率的粗略特征和低分辨率的细小特征优化分割结果。3轻量级decoder: 编码器中分层Transformer的设计使其相较于CNN有更大的感受野这使得在设计decoder时可以仅由MLP层组成。所以decoder的计算量和参数量非常小从而使得整个模型可以高效运行简单直接。并且通过聚合不同层的信息结合了局部和全局注意力。1.11 Swin-UNet论文地址https://arxiv.org/pdf/2105.05537.pdfSwin-UNet于2021年提出它是一个类Unet的纯Transformer。Token化的图像patch被输入到基于transformer的U型编码器-解码器架构中并具有跳跃连接用于局部全局语义特征学习。具体来说Swin-UNet使用带有移位窗口(shifted windows)的分层Swin Transformer作为编码器来提取上下文特征设计了一种基于对称Swin Transformer的patch expanding层解码器对特征图进行上采样操作恢复特征图的空间分辨率。1.12 SegNeXt论文地址https://arxiv.org/abs/2209.08575SegNeXt于2022提出展示了卷积注意力在编码上下文信息上比transformer自注意力更有效。其架构特点主要如下1采用一种新的多尺度卷积注意力Multi-Scale Convolutional Attention, MSCA。MSCA包含三个部分分别是深度可分离卷积获取局部信息多分支深度可分离strip卷积以捕获多尺度上下文1×1卷积建模不同通道之间的关系2在解码器中轻量级的Hamburger 以进一步建模全局上下文。2. 数据集推荐在这里小编针对道路交通领域推荐一个易于上手的道路标记数据集CeyMo Dataset。所有图像均配备有像素级人工标注的道路标记真值图像Ground-truth。数据集的详细信息可见GitHub - oshadajay/CeyMo: CeyMo: See More on Roads - A Novel Benchmark Dataset for Road Marking Detection (IEEE/CVF WACV 2022)。针对语义分割任务为了方便测试小编将数据集进行了处理将原来的11个标记类别变成了一个类别。如果想要处理后的数据集可从百度网盘下载。链接https://pan.baidu.com/s/1p6mGDiCGEAvoyBMwD0twowpwd2twg提取码2twg此外小编用处理后的数据集测试了几个语义分割模型。所有语义分割架构均在Tensorflow2.0环境下测试。在测试集上参考测试结果如下ModelF1-score(%)IOU(%)UNet91.0082.81DeepLabv389.9681.12HRNetV2-W4886.3675.46HRNet-OCR88.2078.30PSPNet88.1078.15SegNet88.8078.85SegFormer88.9179.43SegNeXt90.2982.98总结回顾近10年来经典的语义分割模型无论是基于CNN的架构还是基于Transformer的架构最核心的理念是“编码-解码”。直观上来讲就是通过下采样获取特征的潜在表示再通过上采样从抽象的底层特征表示中恢复目标的细节信息。从交通、医学、遥感、自动驾驶、智能施工管控等领域近些年发表的关于语义分割的论文来看采用的架构大多是以上所提到的模型的变体包括但不限于添加各种注意力机制模块、更换主流的特征提取网络backbone、CNN与transformer混合设计、多尺度特征融合。其中一个主要原因是面对不同的分割任务和分割对象已有的语义分割架构并不能保证表现得很出色。所以在利用语义分割算法解决自己特定领域的问题时往往需要结合实际需求精度为第一要素、速度为第一要素、还是速度和精度要达到出色的平衡对架构进行改造设计。挑战与未来发展目前来看各种语义分割架构层出不穷但本质上都是基于最小元素“卷积”或“Transformer”的各种组合变体。未来针对特定的专业分割任务仍需要结合具体场景和需求选择或搭建适合自己的架构体系。除此之外以上所提到的语义分割架构全是基于监督学习的也就是有标签的深度学习。但现实情况是很多任务的标签获取很难或者非常珍贵。面对这一痛点基于自监督学习、半监督学习以及无监督学习的深度学习范式是一个非常不错的研究思路。目前已有很多学者开展了对自监督学习、半监督学习以及无监督学习的研究并取得了一定的进展。关于这一块的内容小编将在后续进行介绍。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2413664.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…