HyperGBM用Adversarial Validation解决数据漂移问题

news2025/7/21 1:43:08

本文作者:杨健,九章云极 DataCanvas 主任架构师

数据漂移问题近年在机器学习领域来越来越得到关注,成为机器学习模型在实际投产中面对的一个主要挑战。当数据的分布随着时间推移逐渐发生变化,需要预测的数据和用于训练的数据分布表现出明显的偏移,这就是数据漂移问题。

在这里插入图片描述

数据漂移分为三种类型:

  • 变量偏移(Covariate Drift),某些独立的特征发生偏移

  • 先验概率偏移(Prior probability Drift),目标变量发生偏移

  • 概念偏移(Concept Drift),特征和目标变量之间的关系发生偏移

为什么不能通过提升泛化能力来解决数据漂移问题?

数据漂移问题无法通过提升模型泛化能力的方法来解决,因为我们目前的机器学习方法基本是建立在IID(独立同分布)前提下的。在一个真实分布下可观测的训练数据有限,训练好模型在预测时遇到了符合同一个分布但未观测到的样本时准确度下降,这种情况我们通过选择合适的算法、交叉验证、正则化、Ensemble等方式是可以有效改善模型的泛化能力的。但数据漂移的本质是数据的真实分布发生了较大的变化,因此仅仅提升泛化能力是无法有效提升模型效果的。

常用的解决方案

数据漂移常见的解决方案是不断的引入最新的数据重新训练模型,但这种方案存在很大的缺陷,例如:我们在客户流失预警中通常会用历史标注的数据训练模型来预测当月是否有用户流失,模型预测的结果要等下个月通过用户行为反馈后得到标注才能评估,如果我们发现结果大幅下降才能判断数据发生了漂移,因此这种方案存在比较明显的滞后性,这也是有监督学习的主要短板。

使用Adversarial Validation半监督学习解决数据漂移

随着近年来无监督和半监督学习的发展,一种基于Adversarial Validation(对抗验证)的半监督学习技术被提出用于解决数据漂移问题。它的核心思想是通过训练一个Adversarial Classifier来判断是否发生漂移以及哪些特征发生了漂移,进而删除发生漂移的特征来保证模型在新数据上的效果。如下图所示:

在这里插入图片描述

对抗验证的基本过程是把训练数据(先删除目标列)和待预测数据(数据中本身就没有目标列)合并后添加新的二分类目标列(来自训练集为0, 来自测试集为1)。新的数据集shuffle后使用分层采样分割成训练集和评估集,用训练数据fit模型后使用评估集评估AUC,通常如果数据没有发生偏移AUC会接近0.5,否则就可以判断发生了不同程度的数据漂移。接下来就是识别哪些特征发生了漂移,有两种方法:一种是把每一个特征列做为X,单独训练Adversarial Classifier来评估AUC,超过一定阈值(如>0.6),就确定该列发生了漂移。另一种方法是:用全部特征训练Classifier然后评估AUC,如果超过一定阈值,就删除掉特征重要性最高的n个特征,然后重复迭代这个过程,直到AUC降到可接受的范围内。

上面的方法是通过删除漂移特征来保证模型不被干扰,还有一种方法是通过选择合适的验证集来获得更接近于测试集(待预测数据)的模型评估结果,被成为Validation Data Selection。这种方法是训练一个模型来识别训练集中的哪些样本的分布和测试集更相似,把这些样本拿出来做为Validation Data来指导模型训练,让模型可以更好的拟合测试数据的分布。

在HyperGBM中如何自动完成数据漂移检测和处理?

以上这些方法在很多数据集上可以很明显的改善模型的预测效果,目前在HyperGBM中都已经支持,通过配置参数就可以完成。HyperGBM中只需要在构建experiment时设置drift_detection=True就会自动完成数据漂移的检测和处理,需要注意的是Adversarial Validation是一种半监督学习,所以训练时需要提供未观测到目标数据的测试集(比如待预测的下个月的数据,Kaggle竞赛中的测试集),在下面示例中我们只是从数据集中分割了一部分数据删除目标列做为测试集:

from tabular_toolbox.datasets import dsutils
from sklearn.model_selection import train_test_split
from hypergbm.search_space import search_space_general
from hypergbm import make_experiment
# load data into Pandas DataFrame
df = dsutils.load_bank()
target = 'y'
train, test = train_test_split(df, test_size=0.3)
test.pop(target)
#create an experiment
experiment = make_experiment(train, target=target, test_data=test,drift_detection=True)
#run experiment
estimator = experiment.run()
# predict on test data without target values
pred = estimator.predict(test)

实现Validation Data Selection只需要设置train_test_split_strategy=‘adversarial_validation’,示例代码入下:

from tabular_toolbox.datasets import dsutils
from sklearn.model_selection import train_test_split
from hypergbm.search_space import search_space_general
from hypergbm import make_experiment
# load data into Pandas DataFrame
df = dsutils.load_bank()
target = 'y'
train, test = train_test_split(df, test_size=0.3)
test.pop(target)
#create an experiment
experiment = make_experiment(train, target=target, test_data=test,train_test_split_strategy='adversarial_validation')
#run experiment
estimator = experiment.run()
# predict on test data without target values
pred = estimator.predict(test)

更多HyperGBM相关内容请参考:
https://github.com/DataCanvasIO/HyperGBM

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/368634.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

剑指 Offer 30. 包含min函数的栈

摘要 剑指 Offer 30. 包含min函数的栈 一、栈解析 package Stock;import java.util.Stack;/*** Classname JZ30min函数栈* Description TODO* Date 2023/2/24 18:59* Created by xjl*/ public class JZ30min函数栈 {/*** description 最小栈的含义是每次从栈中获取的数据都是…

AWS攻略——使用中转网关(Transit Gateway)连接不同区域(Region)VPC

文章目录Peering方案Transit Gateway方案环境准备创建Transit Gateway Peering Connection接受邀请修改中转网关路由修改被邀请方中转网关路由修改邀请方中转网关路由测试修改Public子网路由知识点参考资料区别于 《AWS攻略——使用中转网关(Transit Gateway)连接同区域(Region…

深入理解Spring Boot的自动配置

通过spring boot可以很方便的独立运行spring应用程序,因为spring boot内嵌了Tomcat、Jetty等servlet容器,切提供自动配置功能,无需进行XML配置即可自动运行应用程序。那么Spring boot启动过程中具体进行了哪些操作呢?下面是Spring…

Julia 数学函数

Julia 提供了一套高效、可移植的标准数学函数。 数值比较 下表列出了用于数值比较的函数: 函数测试是否满足如下性质isequal(x, y)x 与 y 值与类型是否完全相同isfinite(x)x 是否是有限大的数字isinf(x)x 是否是(正/负)无穷大isnan(x)x 是否…

项目重构,从零开始搭建一套新的后台管理系统

背景 应公司发展需求,我决定重构公司的后台管理系统,从提出需求建议到现在的实施,期间花了将近半个月的时间,决定把这些都记录下来。 之前的后台管理系统实在是为了实现功能而实现的,没有考虑到后期的扩展性&#xf…

SpringMVC常见面试题(2023最新)

目录前言1.简单介绍下你对springMVC的理解?2.说一说SpringMVC的重要组件及其作用3.SpringMVC的工作原理或流程4.SpringMVC的优点5.SpringMVC常用注解6.SpringMVC和struts2的区别7.怎么实现SpringMVC拦截器8.SpringMvc的控制器是不是单例模式?如果是,有什…

关基系统三月重保安全监测怎么做?ScanV提供纯干货!

三月重保当前,以政府、大型国企央企、能源、金融等重要行业和领域为代表的关键信息基础设施运营单位都将迎来“网络安全大考”。 对重要关基系统进行安全风险监测并收敛暴露面,响应监管要求进行安全加固,重保期间实时安全监测与数据汇报等具体…

js函数声明方式*2,对象声明方式*7,不同的调用

目录 一、两种函数声明方式 二、七种对象声明方式 一、两种函数声明方式 【1】命名函数 形如: function fu1(){ let firstName 111111111 let lastName 2222222 console.log(firstName ,lastName ) } function fu2(firstName,lastName ){ …

Linux 线程优先级

目录标题概述Linux进程调度的三种策略Linux 线程优先级对于实时任务对于普通任务top中的PR和NI其他说明代码示例设置为实时进程优先级测试代码概述 概述内容 常见的运用场景: 1:2;3; Linux进程调度的三种策略 SCHED_OTHER,分时调度策略&#…

【读论文】AttentionFGAN

【读论文】AttentionFGAN介绍网络架构提取红外图像目标信息的网络辨别器损失函数生成器损失函数辨别器损失函数总结参考论文: https://ieeexplore.ieee.org/document/9103116/如有侵权请联系博主介绍 好久没有读过使用GAN来实现图像融合的论文了,正好看…

【Java面试八股文宝典之基础篇】备战2023 查缺补漏 你越早准备 越早成功!!!——Day14

大家好,我是陶然同学,软件工程大三今年实习。认识我的朋友们知道,我是科班出身,学的还行,但是对面试掌握不够,所以我将用这100多天更新Java面试题🙃🙃。 不敢苟同,相信大…

计算机专业要考什么证书?

大家好,我是良许。 从去年 12 月开始,我已经在视频号、抖音等主流视频平台上连续更新视频到现在,并得到了不错的评价。 视频 100% 原创录制,绝非垃圾搬运号,每个视频都花了很多时间精力用心制作,欢迎大家…

Android高仿陌陌应用点点滑动效果

效果图:分析:从效果上看图片的展示具有层次感,在数据结构上更像是stack,所以通过继承FrameLayout来实现(不清楚FrameLayout布局特点的可以先百度下哈),外面是通过继承FrameLayout自定义的TinderStackLayout&#xff0c…

SpringBoot-基础篇

SpringBoot基础篇 ​ 在基础篇中,我给学习者的定位是先上手,能够使用SpringBoot搭建基于SpringBoot的web项目开发,所以内容设置较少,主要包含如下内容: SpringBoot快速入门SpringBoot基础配置基于SpringBoot整合SSMP…

为你的Vue2.x老项目安装Vite发动机吧

天下苦webpack久矣,相信作为前端开发者一定经历过在项目迭代时间较长的时候经历漫长等待的这一过程,每一次保存都会浪费掉大量时间,这是webpack这种机制所带来的问题。 于是,尤大为我们带来了新一代前端构建工具:vite…

搜索旋转排序数组、路径总和 II、拆分数字

文章目录搜索旋转排序数组(数组、二分查找)路径总和 II(树、深度优先搜索)拆分数字(算法)搜索旋转排序数组(数组、二分查找) 整数数组 nums 按升序排列,数组中的值 互不…

Transformer学习笔记

Transformer学习笔记1. 参考2. 模型图3.encoder部分3.1 Positional Encoding3.2 Muti-Head Attention3.3 ADD--残差连接3.4 Norm标准化3.5 单个Transformer Encoder流程图4.decoder部分4.1 mask Muti-Head Attention4.2 Muti-Head Attention5 多个Transformer Encoder和多个Tra…

详解数据库基本概念

数据库(DataBase 简称 DB):是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合数据库管理系统(DataBase Management System 简称 DBMS):是一种操纵和管理数据库的大型软件&#xf…

基于嵌入式linux的DHCP服务器的搭建与移植(udhcp)

DHCP是Dynamic Host Configuration Protocol的缩写,即动态主机配置协议。DHCP是一个很重要的局域网的网络协议,使用UDP协议实现动态配置功能,主要有以下用途: 1、为内部网络或网络服务供应商自动分配IP地址; 2、为用…

利用Python和Sprak求曲线与X轴上方的面积

有n组标本(1, 2, 3, 4), 每组由m个( , , ...)元素( , )组成(m值不定), . 各组样本的分布 曲线如下图所示. 通过程序近似实现各曲线与oc, cd直线围成的⾯积. 思路 可以将图像分成若干个梯形,每个梯形的底边长为(Xn1 - Xn-1),面积为矩形的一半&#xff0c…