光谱异常样本检测分析

news2025/7/13 16:51:32

       以近红外光谱为例,大部分光谱数据在不考虑分类问题时,在构建模型前需要对采集数据进行样本分析,以降低因生产过程异常、人为误操作和其他原因对软测量模型的影响,即异常样本检测分析。

       按照定义,异常样本检测任务指的是检测偏离期望行为的事件或者模式,可以是简单地检测数值型数据中是否存在远超于正常范围的离群值,也可以是借助相对复杂的机器学习算法识别数据中隐藏的异常模式。

        1定义及类别

        异常样本分为:

       (1) 离群值(Outlier):偏离正常范围的数据,可能是由传感器故障、人为录入错误或者异常事件导致,在构建机器学习或者统计模型前,可能会导致模型出现偏差。

       (2) 奇异值(Novelty):数据集未受到异常值污染,但是存在某些区别于原始数据分布的观测数据。

       从统计分析角度看,离群值指的是破坏正常数据分布的数据,而奇异数据则是丰富正常数据分布的数据;从模型性能角度看,离群值是降低模型性能的样本,而奇异值则是可能提高模型性能的样本。

         2分析思路

        异常样本检测分析思路:

        (1) 了解你的数据;

        首先,你需要充分了解你的数据及数据所属对象的专业背景,不同类型数据对于异常样本的理解是存在差异的,通常包括以下思路:

        (a) 原始数据中的异常是否显而易见的?

        对于复杂生产过程或不稳定测量环境下获得的样品光谱,其异常样本是比较明显的,如下图所示,存在明显的异常光谱,其主要原因是在线光纤探头堵塞造成的谱线异常。值得注意的是,很多异常样本是无法通过人眼观测的,甚至需要很多工程经验才能做到初步辨识,这也是很多模型泛化性无法进一步提升的因素之一,此类情况下,只能借助其他工具辨识异常样本。

        (b) 从原始数据中是否可以提取出能够有效区分异常的特征?

        针对(a)之外的异常问题,我们能否聚焦于正常和异常样本的可区分特征,这里的特征可以是原始的或者变换后的,例如降维后的、高维扩增后的或者从时域变换为频域的。例如针对图1很难通过人工筛选全部异常样本的情况下,通过PCA降维后可以较为明显的区分正常和异常样本。

        (c) 从统计分析的角度去区分正常和异常样本

        此方法主要基于实测数据的统计分布特性,对于一个稳定或者自然过程,其采集数据通常服从某种分布,多采用正态分布去表征不确定具体分布的过程数据。基于实测数据的统计分析,我们有理由相信正常样本是在变动区间的界限内分布,并且在特定范围存在的概率小于某一近似值。以正态分布为例,数据分布在正负3个标准差范围内的概率为99.73%,因此,可将超出此范围的数据认定为异常样本。

        (d) 对于无法确定是否存在异常样本的数据,我们应该如何处理?

        对于全天候设备,或者连续生产设备,故障导致的停机意味着产能降低甚至造成重大安全问题。此类问题的显著特征是异常数据稀缺,且能够采集到的数据全部或者大部分为正常数据,此类情况下异常样本检测认为被处理为无监督学习问题,可通过数据的隐藏特性筛选异常样本。一个典型的例子是利用过程的时序性,建立LSTM模型,监测输出值的变化趋势实现异常样本的预警分析。

        (2) 选择合适的方法;

        根据所测变量维度的不同,通常分为一维和高维异常样本分析,可以理解为多个样本的单个指标就是一维,多个样本的多维光谱就是高维,两者的异常样本选择方法是存在明显差异的。

      3分析方法

        01一维数据分析方法

        (a) 是否超出历史数据的最大/最小值;

        此方法是最大容错限度,通常情况下不会以历史数据的极值作为批判标准,更多的是结合统计过程控制(statistical process control, SPC)建立合适的批判上下限进行样本分析。

        (b) 3-sigma原则;

        如果数据符合正态分布,可将3sigma作为误差极限,将落在[u-3sigma, u+3sigma]外的样本作为离群值;以某数据为例,其分布统计图如下所示,可根据数据分布选择性地确定离群阈值线并确定对应样本。

        (c) 利用箱线图/四分位图检验

        箱线图或者箱型图可以反映数据的整体分布情况,因此可以用于判断数据是否存在异常值,如下图所示,可以较为明显地判断是否有异常及异常值的判断上下界。此外,结合其他指标可以确定对应异常值的索引,并最终确定异常样本。

        02高维数据分析方法

        对于多变量数据集,特征之间可能存在复杂和高度非线性的相关性,上述方法不再适用于异常样本分析,通常采用以下检测方法:

        (a) 高维数据可视化分析

        可视化分析包括统计分布可视化、聚类分布可视化和降维可视化等,此外包括升维可视化,主要目的是将低维不可分问题转换为高维线性可分问题。以某数据为例,其利用tSNE降维后的数据可区分性得以提升。

        (b) 有监督异常检测

        可以根据采集有标签样本数据建立分类模型实现异常样本检测,例如朴素贝叶斯分类模型,CNN模型等,此处不再详细介绍。

        (c) 无监督异常检测

        对于没有标签信息的多变量样本数据,可以通过数据自身的特性出发进行无监督异常分析,例如基于距离类的、基于统计类的、基于因子分析类的等等。此处介绍几种基于距离类的方法。

        1) 马氏距离(Mahalanobis Distance),该方法是一种衡量样本和数据集分布间相似度的尺度无关的度量指标。具体为如果数据符合多变量正态分布,那么可以使用样本到数据集分布中心的马氏距离检测异常。此处需要简单解释一下为什么不建议采用欧式距离,如下图所示,图中蓝色点和黄色点离样本均值的欧式距离相近,但是由于样本整体分布沿 f(x)=x 的方向分布(变量之间具有相关性),蓝色点更有可能是数据集中的点,对应的马氏距离更小,而黄色点更有可能是离群值,对应马氏距离也更大。因此,设定一个合理的阈值,可以划分异常样本和正常样本。

        对于上述的某数据集,基于马氏距离的方法可较好的实现异常样本筛选。

        值得一提的是,马氏距离筛选异常样本适用于数据符合或接近正态分布的情况,但在通常情况下,实际数据的分布规律难以预估。

        2) 局部离群因子法:通过计算样本及其周围k个近邻点的局部可达密度并量化每个样本的离群程度确定离群样本,该方法不受数据分布的影响,同时考虑了数据集的局部和全局属性,比较适用于中等高维的数据集,针对示例数据集的预测准确度比较理想。但对近邻参数较为敏感,由于需要计算数据集中任意两个数据点的距离,算法的时间复杂度较高,在大规模数据集上效率偏低,适合小规模到中等规模的数值型数据。

        3) 孤立森林:利用决策树模型对样本进行划分,并根据路径长度确定异常样本。

        对于上述某数据,我们可得到如下样本得分统计分布并确定阈值线,根据阈值可确定最终的异常样本。

        4总结回顾

        1. 在处理数据前,首先要结合专业背景充分了解你的数据;

        2. 熟悉不同异常样本检测方法的适用范围或特定条件,根据实际情况选择合适的方法。

        3. 转换思考角度,从不同方面去看异常样本的特性;

        4. 尊重实际过程问题,数据来源于实际,脱离实际问题,很多方法无法发挥作用。

如果您有感兴趣的话题、其他观点或者问题,欢迎留言或者发送邮件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/38295.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

k8s编程operator——(3) 自定义资源CRD.md

文章目录1、自定义资源的使用1.1 注册自定义资源1.2 使用自定义资源:1.3 Finalizers1.4 合法性验证2、如何操作自定义资源2.1 使用RestClient和DynamicClient来操作自定义资源对象2.2 使用sharedIndexInformer2.3 code-generator2.3.1 下载安装2.3.2 code-generator…

Ajax、Fetch、Axios三者的区别

1.Ajax(Asynchronous JavaScript And XML) Ajax 是一个技术统称,它很重要的特性之一就是让页面实现局部刷新。 特点: 局部刷新页面,无需重载整个页面。 简单来说,Ajax 是一种思想,XMLHttpReq…

毕业设计-基于机器学习的图片处理图片倾斜校正

前言 📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投…

如何简单理解大数据

如何简单理解大数据 HDFS-存储 海量的数据存储 hadoop 只是一套工具的总称,它包含三部分:HDFS,Yarn,MapReduce,功能分别是分布式文件存储、资源调度和计算。 按理来说,这就足够了,就可以完成大…

matlab实现MCMC的马尔可夫转换MS- ARMA - GARCH模型估计

状态转换模型,尤其是马尔可夫转换(MS)模型,被认为是识别时间序列非线性的不错的方法。 估计非线性时间序列的方法是将MS模型与自回归移动平均 - 广义自回归条件异方差(ARMA - GARCH)模型相结合,…

Ubuntu22.04+Nvidia驱动+Cuda11.8+cudnn8.6

Ubuntu22.04Nvidia驱动Cuda11.8 一、准备环境 ubuntu 22.04nvidia显卡 这里使用的是RTX3060已安装Python3.10 二、安装pip3 # 安装 sudo apt install python3-pip # 升级 sudo pip3 install --upgrade pip # 如果要卸载,使用命令: sudo apt-get remov…

MySQL创建和管理表

基础知识 一条数据存储的过程 存储数据是处理数据的第一步 。只有正确地把数据存储起来,我们才能进行有效的处理和分析。否则,只能是一团乱麻,无从下手。 那么,怎样才能把用户各种经营相关的、纷繁复杂的数据,有序、…

ES6解析赋值

ES6中新增了一种数据处理方式,可以将数组和对象的值提取出来对变量进行赋值,这个过程时将一个数据结构分解成更小的部分,称之为解析。 1.对象解析赋值: 在ES5中,要将一个对象的属性提取出来,需要经过一下几个过程。 …

aws sdk 学习和使用aws-sdk-go

https://www.go-on-aws.com/infrastructure-as-go/cdk-go/sdk example,https://github.com/awsdocs/aws-doc-sdk-examples golang的安装,使用1.15之后默认开启GO15VENDOREXPERIMENT的版本 yum install golang -y go env -w GOPROXYhttps://goproxy.cn,…

智慧教室解决方案-最新全套文件

智慧教室解决方案-最新全套文件一、建设背景1、教育信息化2.0行动计划2、中国教育现代化20353、加快推进教育现代化实施方案二、建设思路互联网时代教学环境定义三、建设方案四、获取 - 智慧教室全套最新解决方案合集一、建设背景 1、教育信息化2.0行动计划 “网络学习空间覆…

【直播】-DRM和TZC400的介绍-2022/11/26

直播背景和内容 最近有两位SOC大佬再和我探讨TZC的设计,以及使用场景。也有几位软件工程师,在深入得学习安全技术,也问到了TZC相关的技术。 然后就搞了本次的直播,共计17人报名。 上线12位同学。(有ASIC大佬、有软件大佬、芯片严…

shell脚本的条件判断3:探究[[]]和[]的区别

前言 实例中除非特别标注,否则都不是在centos中测试的。 一 简述 多数情况下[]和[[]]是可以通用的,两者的主要差异是:test或[]是符合POSIX标准的测试语句,兼容性更强,几乎可以运行在所有Shell解释器中,相…

驱动保护进程 句柄降权 杀软自保 游戏破图标技术原理和实现

文章目录实现效果实现原理代码实现实现效果句柄降权对抗(实现破游戏图标和关闭杀软自保)降权对抗延伸游戏降权对抗杀软自保对抗隐藏Object钩子回调完整代码实现效果 效果如图所示: 无法结束进程: CE无图标: 内存无法读取 可以看到被保护的进…

STC 51单片机41——汇编 串口连续发送数据

; 仿真时,单步运行,记得设置虚拟串口数据 ORG 0000H MOV TMOD ,#20H ;定时器1,工作方式2,8位重装载 MOV TH1,#0FDH ; 波特率9600 MOV TL1,#0FDH SETB TR1 ; 启动T1 MOV SCON ,#40H ; 串口工作方式1 …

[激光原理与应用-20]:《激光原理与技术》-6- 谐振腔的结构、作用、工作原理

目录 第1章 谐振腔简介 1.1 什么是谐振腔 1.2 什么是光学谐振腔 1.3 谐振腔的作用 1.4 什么是镜片镀膜 第2章 谐振腔的结构与工作原理 2.1 谐振腔的结构 2.2 谐振腔的分类 2.3 激活介质与谐振腔的工作原理 第1章 谐振腔简介 1.1 什么是谐振腔 谐振腔,是…

[Java反序列化]—CommonsCollections4

0x01: 这条链子 前半段跟CC3 一样 ,都是动态加载字节码的过程,后边的构造用到了两个类,PriorityQueue和TransformingComparator Gadget chain:ObjectInputStream.readObject()PriorityQueue.readObject()...TransformingComparat…

如何Cisco的学员 摆脱游客登录

Cisco Packet Tracer 是一款强大的网络模拟工具,可用于在虚拟实验环境中练习网络、物联网和网络安全技能。您不需要任何硬件,即可获得实操经验! 相信很多小伙伴在使用cisco packet tracer这个思科数据包跟踪器 - 网络仿真工具时在登录的时候…

云原生k8s的前世今生--Docker

不可修改(immutability)和幂等性(idempotent)是一致依赖困扰软件发布与运维的两个难题。以nodejs等解析执行的应用而言,如何控制发布后的软件不被修改运行,发布后,经常发现因为运行环境差异导致各种水土不服:比如应用程序对底层操…

【C++数据结构】渐近记法

渐近记法 3.1 引言 考察程序的操作计数和执行步数有两个重要的原因: 1)预测程序运行时间如何随着实例特征的变化而变化; 2)对两个功能相同的程序,比较它们的时间复杂度。 存在问题: 在使用操作计数时,我们关注的…

Vue生命周期--Vue实例创建过程详解

每个Vue实例在被创建时都要经过一系列的初始化过程--例如,需要设置数据监听、编译模板、将实例挂载到DOM并在数据变化时更新DOM等。同时在这个过程中也会运行一些叫做 生命周期钩子的函数,这给了用户在不同阶段添加自己的代码的机会。 生命周期图示&…