FiLo++的框架图介绍

news2025/7/15 1:24:49

FiLo++框架图模块详解


在这里插入图片描述

1. 文本生成模块
  • Normal Texts

    • 功能:生成正常样本的文本描述
    • 输入:固定模板(如 A [domain] photo of [state][cls])和可学习模板(如 [v1][v2]...[vm][state][cls])。
    • 输出:融合后的正常文本提示(例如 “A industrial photo of normal metal nut”)。
    • 传递路径:输入到 CLIP Text Encoder,生成正常文本特征((T_n))。
  • Detailed Abnormal Texts

    • 功能:生成细粒度异常描述,包含异常类型和位置信息。
    • 输入:固定模板(如 A [domain] photo of [state][cls] with [anomaly cls] at [pos])和可学习模板(如 [W1][W2]...[W4][state][cls])。
    • 输出:异常文本提示(例如 “A industrial photo of anomalous metal nut with crack at top-right”)。
    • 传递路径:输入到 CLIP Text Encoder,生成异常文本特征((T_a))。

2. 图像处理模块
  • Query Image

    • 功能:待检测的输入图像。
    • 输入:原始图像数据。
    • 输出:图像经过 CLIP Image Encoder 提取多阶段补丁特征((P_1, P_2, P_3, P_4))。
  • Normal Images (Few-shot Only)

    • 功能:少样本场景下的正常参考图像。
    • 输入:少量正常样本图像。
    • 输出:通过 CLIP Image Encoder 提取补丁特征,存入 Memory Bank

3. 文本编码与过滤模块
  • CLIP Text Encoder

    • 功能:将文本提示编码为特征向量。
    • 输入:正常和异常文本提示。
    • 输出:文本特征 (T_n)(正常)和 (T_a)(异常)。
  • Run-time Prompt Filtering

    • 功能:过滤语义重叠的文本特征,提升正常/异常特征区分度。
    • 输入:原始文本特征 (T_n) 和 (T_a)。
    • 输出:过滤后的高区分度特征 (T’_n) 和 (T’_a)。

4. 初步定位模块
  • Grounding DINO
    • 功能:基于文本描述初步定位潜在异常区域。
    • 输入:Query Image 和异常文本描述。
    • 输出:异常区域边界框(Bounding Box),用于后续特征匹配范围约束。

5. 多尺度交互模块
  • Deformable Conv (MDCI)

    • 功能:通过可变形卷积聚合多尺度图像特征,适应不同形状/大小的异常区域。
    • 输入:多阶段补丁特征 (P_1-P_4)。
    • 输出:跨模态对齐后的异常热力图 (M^{vl})。
  • Stage1-Stage4

    • 功能:分层提取图像补丁特征(不同层级的语义信息)。
    • 输入:原始图像。
    • 输出:各阶段的补丁特征 (P_1, P_2, P_3, P_4)(分辨率递减,语义增强)。

6. 特征对齐与融合模块
  • Adapter

    • 功能:调整全局图像特征,增强与文本特征的相似度计算。
    • 输入:CLIP Image Encoder 的全局特征 (G)。
    • 输出:适配后的全局特征 (G’)。
  • Memory Bank (Few-shot Only)

    • 功能:存储少样本正常图像的补丁特征。
    • 输入:正常参考图像的补丁特征。
    • 输出:用于与查询图像的补丁特征进行匹配,生成少样本异常热力图 (M^{few})。

7. 异常分数计算模块
  • Matrix Multiplication

    • 功能:计算图像特征与文本特征的相似度。
    • 输入:适配后的全局特征 (G’) 和过滤后的文本特征 (T’_n, T’_a)。
    • 输出:全局异常分数 (S_{global})(图像级检测结果)。
  • Global Anomaly Score

    • 功能:融合全局分数与局部热力图,生成最终异常分数。
    • 输入:(S_{global}) 和 (M{vl})(跨模态热力图)、(M{few})(少样本热力图)。
    • 输出:图像级和像素级异常检测结果。

核心流程总结

  1. 文本生成:通过固定模板和LLM生成细粒度文本提示。
  2. 特征提取:CLIP编码器分别处理文本和图像,生成多模态特征。
  3. 初步定位:Grounding DINO过滤背景,缩小检测范围。
  4. 多尺度交互:MDCI模块融合多阶段图像特征与文本特征,生成异常热力图。
  5. 少样本融合:Memory Bank存储正常样本特征,通过补丁匹配增强定位精度。
  6. 分数计算:全局与局部特征融合,输出最终检测结果。

创新点

  • 细粒度文本描述(LLM生成异常类型与位置)提升可解释性。
  • 多尺度可变形卷积(MDCI)适应复杂异常形态。
  • 少样本定位增强(Memory Bank + 位置约束)减少误检。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2371808.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++--入门基础

C入门基础 1. C的第一个程序 C继承C语言许多大多数的语法,所以以C语言实现的hello world也可以运行,C中需要把文件定义为.cpp,vs编译器看是.cpp就会调用C编译器编译,linux下要用g编译,不再是gcc。 // test.cpp #inc…

准确---Typora配置Gitee图床并实现自动图片上传

下载地址:https://github.com/Molunerfinn/picgo/releases 安装就直接下一步,下一步就行 安装完以后然后回到Typora上偏好设置指定一下路径 默认是 C:\Program Files\PicGo\PicGo.exe 并且还需要选择规则 接下来就需要去PicGo上面配置了 配置之前需要去…

Day111 | 灵神 | 二叉树 | 验证二叉搜索树

Day111 | 灵神 | 二叉树 | 验证二叉搜索树 98.验证二叉搜索树 98. 验证二叉搜索树 - 力扣(LeetCode) 方法一:前序遍历 递归函数传入合法的左右边界,只有当前结点是合法的边界,才是二叉搜索树,否则就返回…

Redis 8.0 正式版发布,新特性很强!

就在前两天,Redis 8.0 正式版 (GA) 来了!这并不是一次简单的更新,Redis 8.0 不仅带来了性能上的进一步提升,还带来一些实用的新特性与功能增强。并且,最重要的是拥抱 AGPLv3 重归开源! 下面,简单…

以太坊智能合约开发框架:Hardhat v2 核心功能从入门到基础教程

一、设置项目 Hardhat 项目是安装了 hardhat 包并包含 hardhat.config.js 文件的 Node.js 项目。 操作步骤: ①初始化 npm npm init -y②安装 Hardhat npm install --save-dev hardhat③创建 Hardhat 项目 npx hardhat init如果选择 Create an empty hardhat.…

了解Dockerfile

定制docker 镜像的方式: 手动修改容器内容,导出新的镜像基于dockerfile 自行编写指令,基于指令流程创建镜像 镜像和容器的层级实现 docker拉取镜像到docker engine 之后,共享系统内核。 在内核层上有镜像层(本质上只…

强化学习--2.数学

强化学习--数学 1、概率统计知识1.1 随机变量与观测值1.2 概率密度函数(PDF)1.3 期望1.4 随机抽样 2、数据期望E3、正态分布4、条件概率1. **与多个条件相关**(依赖所有前置条件)2. **仅与上一个条件相关**(马尔可夫性…

边缘计算:开启智能新时代的“秘密武器”

大家好,我是沛哥儿,我们又见面了。今天我们来简单说下什么是边缘计算,它怎么工作的,有哪些优势。有哪些具体的应用场景。 文章目录 1、边缘计算是什么?2、边缘计算如何工作?3、边缘计算有哪些优势&#xff…

# 如何使用 PyQt5 创建一个简单的警报器控制界面

如何使用 PyQt5 创建一个简单的警报器控制界面 引言 在现代自动化和监控系统中,警报器扮演着至关重要的角色。它们可以提醒我们注意潜在的危险或紧急情况。在这篇文章中,我将向您展示如何使用Python的PyQt5库创建一个简单的警报器控制界面。这个界面将…

MySQL报错解决过程

我在调试datagrip的时候,显示拒绝连接,开始的时候,我以为只是服务没有开启,结果到后来在网上搜索各种解决办法无果后,就选择卸载,卸载之后安装新的MySQL 以下就是我的解决过程。 如果只是在使用外置软件&…

【AI入门】CherryStudio入门5:创建知识库,对接Obsidian 笔记

前言 来吧,继续CherryStudio的实践,前边给Cherry Studio添加知识库,对接思源笔记,但美中不足,思源笔记得导出再导入知识库,本文看一下obsidian笔记,笔记内容直接被知识库使用,免去导…

Redis 8.0正式发布,再次开源为哪般?

Redis 8.0 已经于 2025 年 5 月 1 日正式发布,除了一些新功能和性能改进之外,一个非常重要的改变就是新增了开源的 AGPLv3 协议支持,再次回归开源社区。 为什么说再次呢?这个需要从 2024 年 3 月份 Redis 7.4 说起,因为…

【Redis】Redis常用命令

4.Redis常见命令 4.1 Redis数据结构介绍 Redis是一个key-value的数据库,key一般是String类型,不过value的类型多种多样: 命令太多,不需要死记,学会查询就好了~ Redis为了方便我们学习,将操作不同数据类型…

贪心算法应用:最小反馈顶点集问题详解

贪心算法应用:最小反馈顶点集问题详解 1. 问题定义与背景 1.1 反馈顶点集定义 反馈顶点集(Feedback Vertex Set, FVS)是指在一个有向图中,删除该集合中的所有顶点后,图中将不再存在任何有向环。换句话说,反馈顶点集是破坏图中所…

游戏引擎学习第259天:OpenGL和软件渲染器清理

回顾并为今天的内容做好铺垫 今天,我们将对游戏的分析器进行升级。在之前的修复中,我们解决了分析器的一些敏感问题,例如它无法跨代码重新加载进行分析,以及一些复杂的小问题。现在,我们的分析器看起来已经很稳定了。…

12.模方ModelFun工具-立面修整

摘要:本文主要介绍模方ModelFun修模工具——立面修整的操作方法。 点击工具栏即可找到立面修整工具,点击可打开并使用该工具,如下图: 图 工具菜单栏 (1)截面绘制: 快速绘制竖直矩形&#xff1…

Docker 渡渡鸟镜像同步站 使用教程

Docker 渡渡鸟镜像同步站 使用教程 🚀 介绍 Docker.aityp.com(渡渡鸟镜像同步站)是一个专注于为国内开发者提供 Docker 镜像加速和同步服务的平台。它通过同步官方镜像源(如 Docker Hub、GCR、GHCR 等),为…

火影bug,未保证短时间数据一致性,拿这个例子讲一下Redis

本文只拿这个游戏的bug来举例Redis,如果有不妥的地方,联系我进行删除 描述:今天在高速上打火影(有隧道,有时候会卡),发现了个bug,我点了两次-1000的忍玉(大概用了1千七百…

探索元生代:ComfyUI 工作流与计算机视觉的奇妙邂逅

目录 一、引言 二、蓝耘元生代和 ComfyUI 工作流初印象 (一)蓝耘元生代平台简介 (二)ComfyUI 工作流创建是啥玩意儿 三、计算机视觉是个啥 (一)计算机视觉的基本概念 (二)计算…

Unity-Shader详解-其五

关于Unity的Shader部分的基础知识其实已经讲解得差不多了,今天我们来一些实例分享: 溶解 效果如下: 代码如下: Shader "Chapter8/chapter8_1" {Properties{// 定义属性[NoScaleOffset]_Albedo("Albedo", 2…