【Python机器学习系列】针对特定数据构建管道流水线进行机器学习预测(案例+源码)

news2025/7/19 5:40:05

这是我的第305篇原创文章。

一、引言

       机器学习项目中有可以自动化的标准工作流程。在 Python scikit-learn 中,管道有助于明确定义和自动化这些工作流程。使用pipeline后,我们每一步的输出都会自动的作为下一个的输入。一套完整的机器学习应用流程如下:

图片

       其中特征工程(本质是多个转换器)以及模型的构建和训练(本质是一个估计器)可以通过一个流水线管道来实现。根据要解决的问题,自定义转换器可以帮助克服预定义转换器无法处理的困难。同时也能够十分灵活的处理列。下面将会使用一些例子来说明它的强大之处。这个例子的目的是让读者熟悉他们可以用来创建转换器和管道的工具,这将使他们能够尽可能高效地以任何方式针对任何数据集设计和预处理特征。

二、自定义转换器

2.1 数据提取转换器

图片

该数据集包含分类和数值自变量的混合,它们必须通过单独的管道进行适当的预处理,然后我们将它们组合在一起。因此,两个管道的第一步都必须是提取需要进行预处理的适当列。下面是名为 FeatureSelector 的自定义转换器的代码。此构造函数的转换方法仅提取并返回 Pandas 数据集,其中仅包含其名称在其初始化期间作为参数传递给它的那些列。

class FeatureSelector(BaseEstimator, TransformerMixin):
    # 构造函数,传递列参数用于列抽取
    # 可以加入一些打印信息,看看执行的流程
    def __init__(self, feature_names):
        self.feature_names = feature_names
        # print('FeatureSelector init exce...')

    # 返回对象本身
    def fit(self, X, y=None):
        # print('FeatureSelector fit exce...')
        return self

    # 我们需要重写transform方法
    def transform(self, X, y=None):
        # print('FeatureSelector transform exce...')
        return X[self.feature_names]

2.2 分类管道中的自定义转化器

自定义转换器将在分类管道中处理的功能列表:

    • date :此列中的日期格式为“YYYYMMDDT000000”,必须经过清理和处理才能以任何有意义的方式使用。这个转换器的构造函数将允许我们为参数“use_dates”指定一个值列表,具体取决于我们是要为年、月和日或这些值的某种组合创建一个单独的列,还是简单地完全忽略该列传入一个空列表。通过不对该功能的规范进行硬编码,我们可以随时尝试不同的值组合,而无需重写代码。

    • waterfront:房子是否是近邻海滨。转换为二进制 - 是或否

    • view : 房子被查看了多少次。大多数值是 0。其余的值在 1 和 4 之间分布非常稀疏。转换为二进制 — 是或否

    • yr_renovated : 房子翻新的年份。大部分值都是 0,大概是从不,而其余的在几年之间的分布非常稀薄。转换为二进制 - 是或否

# 构建自定义的分类列Transformer
class CategoricalTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, use_dates=['year', 'month', 'day']):
        self._use_dates = use_dates
        # print('CategoricalTransformer init exce...')

    def fit(self, X, y=None):
        return self

    def get_year(self, obj):
        return str(obj)[:4]

    def get_month(self, obj):
        return str(obj)[4:6]

    def get_day(self, obj):
        return str(obj)[6:8]

    def create_binary(self, obj):
        if obj == 0:
            return 'No'
        else:
            return 'Yes'

    def transform(self, X, y=None):
        # print('CategoricalTransformer transform exce...')
        for spec in self._use_dates:
            exec("X.loc[:,'{}'] = X['date'].apply(self.get_{})".format(spec, spec))
        X = X.drop(columns=['date'], axis=1)

        X.loc[:, 'view'] = X['view'].apply(self.create_binary)
        X.loc[:, 'waterfront'] = X['waterfront'].apply(self.create_binary)
        X.loc[:, 'yr_renovated'] = X['yr_renovated'].apply(self.create_binary)

        return X.values

2.3 数值管道中的自定义转换器

自定义数值转换器在管道中处理的功能列表:

    • bedrooms:房子里的卧室数量。照原样通过。

    • bathrooms: 房子里的浴室数量。这个转换器的构造函数将有一个参数“bath_per_bead”,它接受一个布尔值。如果为 True,则构造函数将通过计算浴室/卧室来创建一个新列,以计算每间卧室的浴室数量并删除原始浴室列。如果为 False,则它只会按原样通过浴室列。

    • sqft_living :房屋居住面积的平方英尺。照原样通过。

    • sqft_lot :以平方英尺为单位的地块总面积。照原样通过。

    • floors:房屋的楼层数。照原样通过。

    • condition :描述房屋状况的离散变量,取值范围为 1–5。照原样通过。

    • grade:给予住房单元的总体等级,基于金县分级系统,值从 1 到 13。照原样通过。

    • sqft_basement :房屋地下室的大小(如果有),以平方英尺为单位。0 表示没有地下室的房屋。照原样通过。

    • yr_built : 房子的建造年份。这个转换器的构造函数将有另一个参数“years_old”,它也接受一个布尔值。如果为 True,则构造函数将通过从 2019 年减去房屋建造年份来计算 2019 年房屋的年龄来创建一个新列,并删除原始的 yr_built 列。如果为 False,则它只会按原样传递 yr_built 列

# 自定义数值列的转换处理器
class NumericalTransformer(BaseEstimator, TransformerMixin):
    # 构造函数,bath_per_bed ,years_old控制是否计算卧室和时间处理
    def __init__(self, bath_per_bed=True, years_old=True):
        self._bath_per_bed = bath_per_bed
        self._years_old = years_old

    # 直接返回转换器本身
    def fit(self, X, y=None):
        return self

    # 我们编写的自定义变换方法创建了上述特征并删除了冗余特征
    def transform(self, X, y=None):
        if self._bath_per_bed:
            # 创建新列
            X.loc[:, 'bath_per_bed'] = X['bathrooms'] / X['bedrooms']
            # 删除冗余列
            X.drop('bathrooms', axis=1)
        if self._years_old:
            # 创建新列
            X.loc[:, 'years_old'] = 2019 - X['yr_built']
            # 删除冗余列
            X.drop('yr_built', axis=1)

        # 将数据集中的任何无穷大值转换为 Nan
        X = X.replace([np.inf, -np.inf], np.nan)
        # 返回一个 numpy 数组
        return X.values

三、实现过程

3.1 读取数据

data = pd.read_csv(r'data.csv')
df = pd.DataFrame(data)
print(df.head())

df:

图片

3.2 划分数据集

X = data.drop('price', axis=1)
y = data['price'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

3.3 特征分类传递

传递分类管道的分类特征:

categorical_features = ['date', 'waterfront', 'view', 'yr_renovated']

传递数值管道的数值特征:

numerical_features = ['bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'condition', 'grade', 'sqft_basement', 'yr_built']

3.4 管道流水线定义

定义分类管道中的步骤:

categorical_pipeline = Pipeline(steps=[('cat_selector', FeatureSelector(categorical_features)),
                                       ('cat_transformer', CategoricalTransformer()),
                                       ('one_hot_encoder', OneHotEncoder(sparse=False))])

定义数值管道中的步骤:

numerical_pipeline = Pipeline(steps=[('num_selector', FeatureSelector(numerical_features)),
                                     ('num_transformer', NumericalTransformer()),
                                     ('imputer', SimpleImputer(strategy='median')),
                                     ('std_scaler', StandardScaler())])

3.5 管道组合

使用FeatureUnion将数值和分类管道水平组合成一个完整大管道:

full_pipeline = FeatureUnion(transformer_list=[('categorical_pipeline', categorical_pipeline),
                                               ('numerical_pipeline', numerical_pipeline)])

3.6 建立完整管道

完整管道将估算器作为最后一步:

full_pipeline_m = Pipeline(steps=[('full_pipeline', full_pipeline),
                                  ('model', LinearRegression())])

3.7 管道流水线对训练集进行特征处理和训练

full_pipeline_m.fit(X_train, y_train)

3.8 管道流水线对测试集进行特征处理和预测

y_pred = full_pipeline_m.predict(X_test)
print(y_pred)

y_pred:

图片

作者简介:

读研期间发表6篇SCI数据挖掘相关论文,现在某研究院从事数据算法相关科研工作,结合自身科研实践经历不定期分享关于Python、机器学习、深度学习、人工智能系列基础知识与应用案例。致力于只做原创,以最简单的方式理解和学习,关注我一起交流成长。需要数据集和源码的小伙伴可以关注底部公众号添加作者微信。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1841548.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

点亮LED灯(TMS570LS31HDK)

一、安装Code Composer studio(CCS) 1.ccs下载地址 2.ccs安装 学习文档 二、安装Hal Code Generator 下载地址 三、创建新的CCS项目(TMDS570LS31HDK) 详细步骤学习博客(推荐这里学习) 以下是大致步骤…

如何使用mvnd,随着mvnd的1.0.0发布,Maven构建速度提升了3倍不止。

maven-mvnd-1.0.0-m8-m40-windows-amd64 1、什么是 Mvnd呢 Mvnd 是 Apache Maven Daemon 的简称,是一个通过 GraalVM 构建的本地可执行文件,用于加速 Maven 构建。Mvnd 的设计理念是通过在后台运行一个守护进程来避免每次构建时启动新的 JVM&#xff0c…

学校为何青睐气膜体育馆:独特优势解析—轻空间

随着教育设施的不断升级,气膜体育馆因其独特的优势,逐渐成为学校建设的新宠。作为一种现代化的体育设施,气膜体育馆不仅满足了多种体育活动的需求,还在多方面表现出色,受到了广大师生和管理者的青睐。以下是学校使用气…

未雨绸缪!美银美林总结:美股牛市终结的十大指标

牛转熊的红灯逐渐亮起。美银美林总结十大股市见顶指标,当前指标触发进度条已达40%,平均达70%时牛市见顶。 前两日,在美股明星科技股的带领下,标普500指数又双叒创新高了。作为乐观派一方,高盛再度上调标普500指数的年底…

关于面试被面试官暴怼:“几年研究生白读” 的前因后果

中午一个网友来信说自己和面试官干起来了,看完他的描述真是苦笑不得,这年头是怎么了,最近互联网CS消息满天飞,怎么连面试官都SB起来了呢? 大概是这样的:这位网友面试时被问及了Serializable接口的底层实现原理,因为这是一个标识性的空接口,大部分同学在学习时都秉持着会…

js-hooker

该项目是对开源项目进行二开,改写的hook脚本,新增了cookie添加形式的捕获,若有侵权,请联系博主删除。 下面贴运行截图: 解释: 绿色: 新增cookie 红色 : 删除cookie 黄色 &…

java:动态代理和cglib代理的简单例子

# 项目代码资源&#xff1a; 可能还在审核中&#xff0c;请等待。。。 https://download.csdn.net/download/chenhz2284/89457803 # 项目代码 【pom.xml】 <dependency><groupId>cglib</groupId><artifactId>cglib</artifactId><version&…

系统安全(补充)

拒绝服务漏洞&#xff08;拒绝服务漏洞将导致网络设备停止服务&#xff0c;危害网络服务可用性&#xff09;旁路&#xff08;旁路漏洞绕过网络设备的安全机制&#xff0c;使得安全措施没有效果&#xff09;代码执行&#xff08;该类漏洞使得攻击者可以控制网络设备&#xff0c;…

写给大数据开发:谈谈数仓建模的反三范式

在数仓建设中&#xff0c;我们经常谈论反三范式。顾名思义&#xff0c;反范式化指的是通过增加冗余或重复的数据来提高数据库的读性能。简单来说&#xff0c;就是浪费存储空间&#xff0c;节省查询时间。用行话讲&#xff0c;这就是以空间换时间。听起来像是用大炮打蚊子&#…

opencv 视频处理

概述 OpenCV 的视频模块是其核心组成部分之一&#xff0c;主要负责视频文件的读取、处理、分析以及视频流的捕获和输出。这一模块使得开发者能够轻松地处理来自摄像头、文件或其他视频源的视频数据&#xff0c;进行实时或离线的图像处理和计算机视觉任务。以下是 OpenCV 视频模…

唯一工业操作系统!蓝卓supOS入榜中国500最具价值品牌

6月19日 在第21届世界品牌大会上 世界品牌实验室(World Brand Lab) 正式发布2024年《中国500最具价值品牌》分析报告 蓝卓supOS 以131.65亿元的品牌价值成为 国内首个入榜工业操作系统 国内首个工业操作系统的蜕变之旅 蓝卓supOS快速迭代指数增长 不断引领海内外多个首…

同时使用磁吸充电器和Lightning时,iPhone充电速度会变快吗?

在智能手机的世界里&#xff0c;续航能力一直是用户关注的焦点。苹果公司以其创新的MagSafe技术和传统的Lightning接口&#xff0c;为iPhone用户提供了多样化的充电解决方案。 然而&#xff0c;当这两种技术同时使用时&#xff0c;它们能否带来更快的充电速度&#xff1f;本文…

Day9—Spark运行模式及RDD的创建

Spark概述 大数据开发的总体架构 可以看到&#xff0c;在数据计算层&#xff0c;作为Hadoop核心组成的MapReduce可以结合Hive通过类SQL的方式进行数据的离线计算&#xff08;当然也可以编写独立的MapReduce应用程序进行计算&#xff09;&#xff1b;而Spark既可以做离线计算&a…

【Spring Cloud】Gateway 服务网关限流

文章目录 route限流导入依赖编写配置类测试 自定义API分组总结 网关是所有请求的公共入口&#xff0c;所以可以在网关进行限流&#xff0c;而且限流的方式也很多&#xff0c;我们本次采用前面学过的 Sentinel 组件来实现网关的限流。 Sentinel 支持对 SpringCloud Gateway、Zuu…

网络程序通信的流程---socket与TCP的简单认识

网络程序通信的流程 网络程序通信的流程&#xff1a; 1.通过ip地址找到网络中的设备 2.通过端口号找到对应进程的端口 3.传输数据时还需要使用传输协议&#xff08;TCP&#xff09;&#xff0c;保证数据的可靠性 4.socket完成进程之间网络数据的传输 ip地址的介绍 IP地址…

知识库的创建(5) - FaissKBService

文章目录 前言一、追踪代码二、源码分析三、详解kb_faiss_pool类的load_vector_store1. 方法定义2. 方法实现3. 优点4. 再看看self.new_vector_store 总结 前言 上一篇文章&#xff0c;我们追到了这里&#xff0c;了解了kb是通过KBServiceFactory产生的一个对象&#xff0c;而…

计算机网络-BGP路由优选原则八

一、优选到Next_Hop的IGP度量值最小的路由。 查看BGP路由详细信息&#xff1a; [AR1]dis bgp routing-table 192.168.1.0BGP local router ID : 1.1.1.1Local AS number : 100Paths: 2 available, 1 best, 1 selectBGP routing table entry information of 192.168.1.0/24:Fr…

ADOP带你了解:数据中心的高速互联解决方案

随着大语言模型和AIGC的飞速发展&#xff0c;数据中心对于高速、高可靠性的网络连接需求日益增长。ADOP系列产品正是在这样的背景下应运而生&#xff0c;为现代数据中心提供了全面的连接解决方案。 ADOP系列产品概览 ADOP系列产品旨在为云、高性能计算、Web 2.0、企业、电信、…

Python | Leetcode Python题解之第167题两数之和II-输入有序数组

题目&#xff1a; 题解&#xff1a; class Solution:def twoSum(self, numbers: List[int], target: int) -> List[int]:low, high 0, len(numbers) - 1while low < high:total numbers[low] numbers[high]if total target:return [low 1, high 1]elif total <…