论文阅读:Polyp-PVT: Polyp Segmentation with PyramidVision Transformers

news2025/5/24 20:32:13

这篇论文提出了一种名为Polyp-PVT的新型息肉分割框架,该框架采用金字塔视觉变换器(Pyramid Vision Transformer, PVT)作为编码器,以显式提取更强大的特征。本模型中使用到的关键技术有三个:渐进式特征融合、通道和空间注意力、自注意力。

1,模型整体结构

Polyp-PVT通过引入三个简单的组件——级联融合模块(Cascaded Fusion Module, CFM)、伪装识别模块(Camouflage Identification Module, CIM)和相似性聚合模块(Similarity Aggregation Module, SAM),有效地提取了高级和低级线索,并将它们有效地融合以输出最终结果。这些模块有助于从不同维度捕获息肉的细节信息,包括纹理、颜色和边缘,并通过全局注意力机制将详细的外观特征注入到高级语义特征中。

2,编码器

作为模型的骨干网络,PVT用于从输入图像中提取多尺度长距离依赖特征。PVT采用金字塔结构,通过空间缩减注意力操作计算其表示,从而减少资源消耗。

3,CFM

CFM用于收集高级特征中的语义线索,并通过渐进式集成来定位息肉。它由两个级联部分组成,通过一系列的卷积单元和Hadamard乘积操作,将不同层次的特征图进行融合,生成一个特征图T1。

4,CIM

CIM旨在从低级特征图中捕获息肉的细节信息,如纹理、颜色和边缘。CIM包含通道注意力和空间注意力操作,通过这些注意力机制,可以从大量冗余信息中识别出息肉的细节和边缘信息。

5,SAM

SAM通过全局自注意力机制将T1和T2的特征图进行融合,有效地将像素级息肉区域的特征与整个息肉区域的高级语义位置信息结合起来。

SAM具体结构如下

其中T1(包含高级语义信息)和T2(包含丰富的外观细节,如纹理和边缘信息)是两个输入特征。

W是线性映射。

AP代表的是自适应池化(Adaptive Pooling)操作。自适应池化是一种操作,它根据输入特征图的尺寸动态调整池化区域的大小,以便在不同分辨率的输入特征图上保持一致的输出尺寸。

GCN是图卷积层,GCN通常用于捕捉图像中不同区域之间的复杂关系和结构信息。

6,实验结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1593333.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux 【进程】

什么是进程 Linux中的进程是指正在运行的程序实例。每个进程都是操作系统内部管理的独立实体,具有自己的地址空间、代码、数据和打开的文件等资源。进程是并发执行的基本单位,可以同时运行多个进程。 Linux中的进程通过创建父子关系形成一个进程树。当一…

软件测试20个基础面试题及答案

什么是软件测试? 答案:软件测试是指在预定的环境中运行程序,为了发现软件存在的错误、缺陷以及其他不符合要求的行为的过程。 软件测试的目的是什么? 答案:软件测试的主要目的是保证软件的质量,并尽可能…

Docker入门实战教程

文章目录 Docker引擎的安装Docker比vm虚拟机快 Docker常用命令帮助启动类命令镜像命令docker imagesdocker searchdocker pulldocker system dfdocker rmi 容器命令redis前台交互式启动redis后台守护式启动Nginx容器运行ubuntu交互式运行tomcat交互式运行对外暴露访问端口 Dock…

头歌-机器学习实验 第8次实验 决策树

第1关:什么是决策树 任务描述 本关任务:根据本节课所学知识完成本关所设置的选择题。 相关知识 为了完成本关任务,你需要掌握决策树的相关基础知识。 引例 在炎热的夏天,没有什么比冰镇后的西瓜更能令人感到心旷神怡的了。现…

【深度学习实战(1)】如何使用argparse模块设置自己的训练参数

一、argparse模块用法 1、argparse是一个python模块,用途是:命令行选项、参数和子命令的解释。 2、argparse库下载:pip install argparse 3、使用步骤: 导入argparse模块,并创建解释器 添加所需参数 解析参数 二、…

Linux vi/vim说明用法

Linux vi/vim 所有的 Unix Like 系统都会内建 vi 文书编辑器,其他的文书编辑器则不一定会存在。 但是目前我们使用比较多的是 vim 编辑器。 vim 具有程序编辑的能力,可以主动的以字体颜色辨别语法的正确性,方便程序设计。 以下是使用 vi 或 v…

linux线程 -- 线程池

一 什么是线程池 1.1 线程池的概念 所谓的 线程池 就是 提前创建一批线程,当任务来临时,线程直接从任务队列中获取任务执行,可以提高整体效率;同时一批线程会被合理维护,避免调度时造成额外开销。 1.2 池化技术 像这种…

蓝桥杯真题演练:2023B组c/c++

日期统计 小蓝现在有一个长度为 100 的数组,数组中的每个元素的值都在 0 到 9 的范围之内。 数组中的元素从左至右如下所示: 5 6 8 6 9 1 6 1 2 4 9 1 9 8 2 3 6 4 7 7 5 9 5 0 3 8 7 5 8 1 5 8 6 1 8 3 0 3 7 9 2 7 0 5 8 8 5 7 0 9 9 1 9 4 4 6 8 6 3 …

全球AI顶会NeurlPS开始收高中生论文了

ChatGPT狂飙160天,世界已经不是之前的样子。 新建了免费的人工智能中文站https://ai.weoknow.com 新建了收费的人工智能中文站https://ai.hzytsoft.cn/ 更多资源欢迎关注 卷高考之后的下一步,卷论文? 培养 AI 人才,要从娃娃抓起&…

《由浅入深学习SAP财务》:第2章 总账模块 - 2.6 定期处理 - 2.6.4 月末操作:货币折算

2.6.4 月末操作:货币折算 如果一个公司代码启用了多个本位币,如下表所示,则在平时记账时,系统会在凭证行项目中同时体现出多个本位币的金额。 图2.6.4-1 两个本位币的金额都会实时更新到科目余额中。因此,在月末可以直…

达梦数据库导入导出工具dmfldr

达梦数据库导入导出工具dmfldr 基础信息 OS版本: Red Hat Enterprise Linux Server release 7.9 (Maipo) DB版本: DM Database Server 64 V8 DB Version: 0x7000c 03134284132-20240115-215128-200811 dmfldr工具介绍 dmfldr(DM Fast Loade…

matlab使用教程(43)—二维曲线图绘制的基本方法

这个博客创建一个简单的曲线图并修改横纵坐标。通过更改线条颜色、线型和添加标记来自定义线图的外观。 1.创建曲线图 使用 plot 函数创建二维曲线图。例如,绘制从 0 到 2 π 之间的正弦函数值,并修改横纵坐标,添加图形标题。 x linspace…

我与C++的爱恋:类与对象(二)

​ ​ 🔥个人主页:guoguoqiang. 🔥专栏:我与C的爱恋 ​ 本篇着重介绍构造函数和析构函数,剩余内容在下篇解答。 一、类的默认成员函数 如果一个类中什么成员都没有,简称为空类。 任何类在什么都不写时…

[全网最全]2024MathorCup妈妈杯C题成品论文33页+配套完整代码数据汇总

2024年第十四届MathorCup数学应用挑战赛C题的每一小问提出具体的解答步骤和思路: (完整版放在文末了)成品论文33页 第一小问:货量预测 解答步骤和思路: 数据整理:首先,需要整理和清洗提供的数…

苍穹外卖学习记录(一)

1.JWT令牌认证 JSON Web Token (JWT)是一个开放标准(RFC 7519),它定义了一种紧凑的、自包含的方式,用于作为JSON对象在各方之间安全地传输信息。该信息可以被验证和信任,因为它是数字签名的。 JWT是目前最常用的一种令牌规范,它最…

LLM-大模型演化分支树、GPT派发展阶段及训练流程图、Infini-Transformer说明

大模型是怎么演进的? Encoder Only: 对应粉色分支,即BERT派,典型模型: BERT 自编码模型(Autoencoder Model):通过重建句子来进行预训练,通常用于理解任务,如文本分类和阅…

10个python初学者常犯的错误

下面10个python初学者常犯的错误,并不是真正的代码错误,代码照样可以运行,但是不够pythonic,因为python有自己的语言哲学,在代码的处理上有传统语言无法比拟的简洁性和便捷性。 1. 真值比较 初学者经常在if语句中使用…

opencv基础图行展示

"""试用opencv创建画布并显示矩形框(适用于目标检测图像可视化) """ # 创建一个黑色的画布,图像格式(BGR) img np.zeros((512, 512, 3), np.uint8)# 画一个矩形:给定左上角和右下角坐标&#xff0…

2路音频解码器JR-AD201

音频解码器 详细介绍 JR-AD201 2路音频解码器,支持RF/ASI/IP输入,支持DRA/AC3/EAC3/AAC/MPEG等音频,输出:2路模拟立体声,2路AES/EBU。 产品特点 支持多种输入方式RF/IP/ASI 接口丰富,AES/EBU/模拟立体声/A…

机器学习和深度学习--李宏毅(笔记与个人理解)Day9

Day9 Logistic Regression(内涵,熵和交叉熵的详解) 中间打了一天的gta5,图书馆闭馆正好npy 不舒服那天天气不好,哈哈哈哈哈总之各种理由吧,导致昨天没弄起来,今天补更! 这里重点注意…