机器学习笔记——特征工程

news2025/5/13 12:07:58

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本笔记介绍机器学习中常见的特征工程方法、正则化方法和简要介绍强化学习。

在这里插入图片描述

文章目录

  • 特征工程(Fzeature Engineering)
    • 1. 特征提取(Feature Extraction)
      • 手工特征提取(Manual Feature Extraction):
      • 自动特征提取(Automated Feature Extraction):
    • 2. 特征选择(Feature Selection)
      • 1. 过滤法(Filter Methods)
      • 2. 包裹法(Wrapper Methods)
      • 3. 嵌入法(Embedded Methods)
      • 4. 其他方法
      • 5. 选择方法的应用场景
      • 总结
    • 3. 特征构造(Feature Construction)
    • 4. 特征缩放
      • 4.1 归一化(Normalization)
      • 4.2 标准化(Standardization)
      • BN、LN、IN、GN
  • 热门专栏
    • 机器学习
    • 深度学习

特征工程(Fzeature Engineering)

1. 特征提取(Feature Extraction)

特征提取:从原始数据提取能够有效表征数据特征的过程。它将原始数据转换为适合模型输入的特征表示。

手工特征提取(Manual Feature Extraction):

  • 文本数据
    • 词袋模型(Bag of Words):将文本数据转化为词频向量,每个单词是一个维度,值为该单词在文本中出现的次数。
    • TF-IDF:为词袋模型加入词频-逆文档频率(Term Frequency-Inverse Document Frequency),降低常见词语的权重提升重要词语的权重
    • N-gram:将连续的 N 个词作为一个特征,捕捉词语间的局部依赖关系
  • 图像数据
    • 边缘检测:使用 Sobel 算子、Canny 边缘检测等方法提取图像边缘信息。
    • SIFT(尺度不变特征变换):提取图像的关键点和局部特征,具有尺度不变性和旋转不变性。
    • HOG(方向梯度直方图):将图像分块,并统计每块的梯度方向直方图,用于描述局部形状和纹理特征。
  • 时间序列数据
    • 移动平均:对时间序列进行平滑,消除短期波动。
    • 傅里叶变换:将时间域的信号转化为频域信号,分析数据的周期性。
    • 窗口函数:将时间序列分为若干窗口,分别计算每个窗口的统计特征,如均值、方差等。

自动特征提取(Automated Feature Extraction):

  • 使用卷积神经网络(CNN):从图像中自动提取高级特征,如边缘、纹理、形状等。
  • 使用循环神经网络(RNN):处理时间序列数据,捕捉长时间依赖关系。
  • 使用BERT(Transformer):通过自监督学习自动提取上下文敏感的文本特征。
  • 自动编码器(Autoencoder):使用无监督学习从数据中提取低维特征表示,捕捉数据的潜在结构和模式。

2. 特征选择(Feature Selection)

特征选择(Feature Selection)是指从原始特征集中挑选出与目标任务最相关的特征,以提高模型的性能、减少训练时间以及降低过拟合的风险。特征选择方法主要分为三类:过滤法(Filter Methods)包裹法(Wrapper Methods)嵌入法(Embedded Methods)

1. 过滤法(Filter Methods)

  • 原理:独立于模型,训练前首先根据某些统计指标对特征进行评分,然后选择得分较高的特征。这种方法不依赖于特定的学习算法,只是基于数据本身的特性进行筛选
  • 常见方法
    • 方差选择法剔除方差较小的特征,认为方差小的特征对目标值影响小。
    • 皮尔森相关系数:计算特征与目标变量之间的线性相关性,选择线性相关性较高的特征
    • 互信息:衡量特征与目标变量之间的信息增益,选择信息量大的特征。
  • 优点计算效率高,易于实现
  • 缺点:未考虑特征之间的相互作用,可能遗漏组合特征的重要性。

2. 包裹法(Wrapper Methods)

  • 原理:在训练中,通过训练模型评估特征子集的表现,使用搜索策略找到对目标任务最优的特征组合。包裹法直接根据模型的性能进行选择,通常通过交叉验证来评估特征子集的好坏。
  • 常见方法
    • 前向选择(Forward Selection):从空集开始逐步添加对模型性能提升最大的特征。
    • 后向消除(Backward Elimination):从所有特征开始逐步移除对模型性能影响最小的特征。
  • 优点:能够考虑特征之间的相互作用,适合复杂的特征选择任务。
  • 缺点:计算开销大,尤其是当特征数目较多时,训练多个模型的过程会非常耗时。

3. 嵌入法(Embedded Methods)

  • 原理:嵌入法结合了过滤法和包裹法的优点,直接在模型训练过程自动选择特征。它通过学习算法自动选择最重要的特征,使特征选择与模型训练同时进行。
  • 常见方法
    • L1正则化(Lasso回归):通过在损失函数中添加L1正则化项,使**部分特征的系数变为零,从而进行特征选择。
    • 决策树及其变体(如随机森林、XGBoost):树模型的特征重要性得分可以用于选择重要特征。
    • Elastic Net:结合L1和L2正则化的优势,在保持模型稀疏性的同时,减少了多重共线性的影响,进行特征选择和模型优化。
  • 优点:特征选择与模型训练同时完成,考虑特征间的相互作用,效率较高。
  • 缺点:需要根据特定算法来进行选择,不具有模型无关性。

4. 其他方法

  • PCA(主成分分析):虽然PCA是降维方法,但在某些场景下可以间接用于特征选择。通过对数据进行线性变换,将多个原始特征组合成少数几个主成分。
  • LDA(线性判别分析):常用于分类问题的降维,也可以视作一种特征选择方法。
  • 基于稳定性选择(Stability Selection):通过在多次子样本集上重复训练模型,并选择那些在多个子集上都表现重要的特征,从而增强选择的鲁棒性。

5. 选择方法的应用场景

  • 过滤法适用于快速预筛选大量特征的情况,计算效率高,但可能丢失特征之间的组合信息。
  • 包裹法在特征数不多时(例如几十个或上百个)效果较好,能找到最佳的特征组合,但计算开销较大。
  • 嵌入法通常适用于大多数场景,尤其是使用线性模型(Lasso)或树模型时,既能训练模型又能自动选择特征。

总结

下面是特征选择方法的总结表格,保留了原有的描述信息:

方法类别原理常见方法优点缺点适用场景
过滤法(Filter Methods)独立于模型,基于统计指标对特征评分,并选择得分较高的特征。- 方差选择法:剔除方差较小的特征
- 皮尔森相关系数:选择线性相关性高的特征
- 互信息:选择信息增益大的特征
计算效率高,易于实现未考虑特征间相互作用,可能遗漏重要的组合特征快速预筛选大量特征的情况,适合初步筛选特征
包裹法(Wrapper Methods)通过训练模型评估特征子集表现,使用搜索策略找到最优特征组合。- 递归特征消除(RFE):删除不重要的特征
- 前向选择:逐步添加性能提升最大的特征
- 后向消除:逐步移除对模型性能影响小的特征
能考虑特征间的相互作用,适合复杂任务计算开销大,训练多个模型耗时长特征数较少(几十到上百个),适合需要精确特征选择的任务
嵌入法(Embedded Methods)结合过滤法和包裹法的优点,在模型训练过程中选择特征。- L1正则化(Lasso回归):通过L1正则化项使部分特征系数为零
- 决策树及其变体(随机森林、XGBoost):根据特征重要性评分选择特征
- Elastic Net:结合L1和L2正则化
特征选择与模型训练同时进行,考虑特征间相互作用,效率高需要根据特定算法选择,不具有模型无关性适合使用线性模型(如Lasso)或树模型的场景,大多数现代复杂模型都适用
其他方法PCA、LDA等方法虽然是降维方法,但可间接用于特征选择。- PCA:通过线性变换将多个特征组合成少数几个主成分
- LDA:常用于分类问题的降维方法
- 稳定性选择(Stability Selection):通过在子样本集上选择表现稳定的特征
能够进行有效降维,有时可以间接用于特征选择降维后特征解释性较弱数据维度较高的情况下,可以用作降维手段,间接提高特征选择效果
  • 过滤法:速度快,适合预处理大量特征,但可能丢失特征间的组合信息。
  • 包裹法:精度高,适合特征数较少且精度要求高的任务,但计算成本大。
  • 嵌入法性能和效率兼顾,适合大多数场景,尤其是使用线性模型(Lasso)或树模型时
  • 其他方法:如PCA、LDA等可以作为降维手段,间接用于特征选择,适合高维数据的场景。

选择合适的特征选择方法能够有效提升模型性能,降低训练时间,避免过拟合。

3. 特征构造(Feature Construction)

特征构造是通过对已有特征进行组合、变换或生成新特征来增强模型表达能力的过程。它可以将隐含的关系显式化,提高模型的拟合能力。

类别主要方法适用场景
数值特征构造变换、分箱处理数值特征、非线性关系
类别特征构造编码、组合处理类别特征、捕捉特征间关系
时间特征构造时间提取、周期特征、时间差时间序列数据、周期性特征
文本特征构造词袋、TF-IDF、词向量、N-grams文本数据、自然语言处理
特征交互与组合特征交互、多项式特征捕捉特征间的复杂关系,适合增强线性模型的非线性拟合能力
聚合与统计特征聚合、统计、窗口聚合大规模表格数据、时间序列数据
生成模型特征降维、聚类、自编码器生成特征复杂高维数据、需要特征压缩的场景
特征选择与构造结合筛选后构造、嵌入法生成特征大规模数据集、特征选择与构造结合的场景

特征构造是一项创造性和技术性并重的任务,需要结合领域知识、数据分析技巧以及机器学习经验来挖掘出更有利于模型训练的特征,从而提升模型的表现。

4. 特征缩放

  1. 归一化:通常是指将数据缩放到一个特定的范围,如[0, 1]。目的是让不同特征的值处于相同的尺度上,【同时也有消除不同特征量纲的影响的作用】大范围的特征值可能会导致梯度更新过慢或不稳定
  2. 标准化:是指对数据进行均值0、标准差1的变换,更关注数据的分布形态。目的是消除不同特征的物理单位和量纲(如重量、温度、距离等)差异,同时保持特征间的相对比例关系。

4.1 归一化(Normalization)

归一化特征值缩放到 [0, 1] 之间,常用于以下算法中:

  • K 近邻算法(KNN):归一化后减少不同特征尺度对距离计算的影响。能够避免特征量纲不同带来的距离计算问题。【与数据的分布无关】
  • 神经网络:将输入特征值缩放至 [0, 1],有助于加快模型收敛。
  • 聚类算法(如 K-Means):归一化避免特征尺度不同造成聚类结果偏差。

Min - Max归一化:将特征缩放到指定范围(通常为[0, 1]),公式为:
x ′ = x − x min ⁡ x max ⁡ − x min ⁡ x' = \frac{x - x_{\min}}{x_{\max} - x_{\min}} x=xmaxxminxxmin

4.2 标准化(Standardization)

标准化特征值转化为均值为 0、方差为 1 的标准正态分布,常用于以下算法中:

  • 线性回归:标准化能够提升参数解释性,并避免部分特征影响过大。
  • 逻辑回归:标准化能够使梯度下降更快地收敛。
  • 支持向量机(SVM):标准化后距离计算更稳定。
  • 主成分分析(PCA):标准化防止某些方差大的特征主导主成分的计算。

Z - score标准化: 将数据转换为均值为0,方差为1的标准正态分布,公式为:
x ′ = x − μ σ x' = \frac{x - \mu}{\sigma} x=σxμ

BN、LN、IN、GN

以下是归一化方法对比总结,其中加入了每种归一化方法的原理:

归一化方法原理适用场景优点缺点
批归一化(BN)一个批量中的所有样本的同一通道进行归一化,基于批次的均值和方差调整卷积网络、全连接网络加快收敛,正则化,适应大批量训练对小批次敏感,序列任务效果差
层归一化(LN)单个样本的所有通道进行归一化,不依赖批量,计算层内均值和方差RNN、Transformer、序列任务适应小批次训练,不依赖批次大小计算量较大,收敛可能稍慢
实例归一化(IN)单张图像的每个通道分别独立进行归一化,计算每个样本的通道内均值和方差图像生成、风格迁移对风格敏感,适用于生成任务不适合分类任务,无法捕捉全局信息
组归一化(GN)单个样本的特征通道分组,对每一组进行归一化,计算组内均值和方差小批次训练,卷积网络适合小批次,不依赖批次大小对卷积核大小和通道数较敏感
权重归一化(WN)对神经元的权重向量进行归一化,将方向和长度分开重新参数化卷积网络、全连接网络、生成模型加速收敛,提高稳定性效果不一定显著,某些任务中不如BN

注意,虽然他们是叫做归一化(批归一化、层归一化、实例归一化),是将多个输入特征归一化为均值为 0、方差为 1 的分布,使得网络的各层输入保持在较为稳定的范围内。本质上是进行标准化。再进行引入两个可学习参数 γ 和 𝛽,分别表示缩放和平移操作。

BN、LN、IN、GN 等归一化方法都包含了标准化的步骤,即它们都会将激活值调整为均值为 0、方差为 1 的分布,关键区别在于这些方法在不同的范围内计算均值和方差,以适应不同的训练场景和模型结构:

注意: 虽然它们方法名字中带“归一化”(批归一化、层归一化、实例归一化、组归一化),但它们的核心操作本质上是标准化,将多个输入特征归一化为均值为 0、方差为 1 的分布,使得网络的各层输入保持在较为稳定的范围内。本质上是进行标准化。再进行引入两个可学习参数 γ 和 𝛽,分别表示缩放和平移操作。

热门专栏

机器学习

机器学习笔记合集

深度学习

深度学习笔记合集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2374642.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

A Survey of Learning from Rewards:从训练到应用的全面剖析

A Survey of Learning from Rewards:从训练到应用的全面剖析 你知道大语言模型(LLMs)如何通过奖励学习变得更智能吗?这篇论文将带你深入探索。从克服预训练局限的新范式,到训练、推理各阶段的策略,再到广泛…

Python爬虫第20节-使用 Selenium 爬取小米商城空调商品

目录 前言 一、 本文目标 二、环境准备 2.1 安装依赖 2.2 配置 ChromeDriver 三、小米商城页面结构分析 3.1 商品列表结构 3.2 分页结构 四、Selenium 自动化爬虫实现 4.1 脚本整体结构 4.2 代码实现 五、关键技术详解 5.1 Selenium 启动与配置 5.2 页面等待与异…

Aware和InitializingBean接口以及@Autowired注解失效分析

Aware 接口用于注入一些与容器相关信息,例如: ​ a. BeanNameAware 注入 Bean 的名字 ​ b. BeanFactoryAware 注入 BeanFactory 容器 ​ c. ApplicationContextAware 注入 ApplicationContext 容器 ​ d. EmbeddedValueResolverAware 注入 解析器&a…

Unity3D仿星露谷物语开发41之创建池管理器

1、目标 在PersistentScene中创建池管理器(Pool Manager)。这将允许一个预制对象池被创建和重用。 在游戏中当鼠标点击地面时,便会启用某一个对象。比如点击地面,就创建了一棵树,而这棵树是从预制体对象池中获取的&a…

Modbus协议介绍

Modbus是一种串行通信协议,由Modicon公司(现为施耐德电气)在1979年为可编程逻辑控制器(PLC)通信而开发。它是工业自动化领域最常用的通信协议之一,具有开放性、简单性和跨平台兼容性,广泛应用于…

I/O多路复用(select/poll/epoll)

通过一个进程来维护多个Socket,也就是I/O多路复用,是一种常见的并发编程技术,它允许单个线程或进程同时监视多个输入/输出(I/O)流(例如网络连接、文件描述符)。当任何一个I/O流准备好进行读写操…

Westlake-Omni 情感端音频生成式输出模型

简述 github地址在 GitHub - xinchen-ai/Westlake-OmniContribute to xinchen-ai/Westlake-Omni development by creating an account on GitHub.https://github.com/xinchen-ai/Westlake-Omni Westlake-Omni 是由西湖心辰(xinchen-ai)开发的一个开源…

随手记录5

一些顶级思维: ​ 顶级思维 1、永远不要自卑。 也永远不要感觉自己比别人差,这个人有没有钱,有多少钱,其实跟你都没有关系。有很多人就是那个奴性太强,看到比自己优秀的人,甚至一些装逼的人,这…

Linux驱动:驱动编译流程了解

要求 1、开发板中的linux的zImage必须是自己编译的 2、内核源码树,其实就是一个经过了配置编译之后的内核源码。 3、nfs挂载的rootfs,主机ubuntu中必须搭建一个nfs服务器。 内核源码树 解压 tar -jxvf x210kernel.tar.bz2 编译 make x210ii_qt_defconfigmakeCan’t use ‘…

使用 Flowise 构建基于私有知识库的智能客服 Agent(图文教程)

使用 Flowise 构建基于私有知识库的智能客服 Agent(图文教程) 在构建 AI 客服时,常见的需求是让机器人基于企业自身的知识文档,提供准确可靠的答案。本文将手把手教你如何使用 Flowise + 向量数据库(如 Pinecone),构建一个结合 RAG(Retrieval-Augmented Generation)检…

RabbitMQ ③-Spring使用RabbitMQ

Spring使用RabbitMQ 创建 Spring 项目后&#xff0c;引入依赖&#xff1a; <!-- https://mvnrepository.com/artifact/org.springframework.boot/spring-boot-starter-amqp --> <dependency><groupId>org.springframework.boot</groupId><artifac…

linux中常用的命令(四)

目录 1-cat查看文件内容 2-more命令 3-less命令 4-head命令 5-tail命令 1-cat查看文件内容 cat中的一些操作 -b : 列出行号&#xff08;不含空白行&#xff09;-E : 将结尾的断行以 $ 的形式展示出来-n : 列出行号&#xff08;含空白行&#xff09;-T : 将 tab 键 以 ^I 显示…

利用SSRF击穿内网!kali靶机实验

目录 1. 靶场拓扑图 2. 判断SSRF的存在 3. SSRF获取本地信息 3.1. SSRF常用协议 3.2. 使用file协议 4. 172.150.23.1/24探测端口 5. 172.150.23.22 - 代码注入 6. 172.150.23.23 SQL注入 7. 172.150.23.24 命令执行 7.1. 实验步骤 8. 172.150.23.27:6379 Redis未授权…

DVWA在线靶场-xss部分

目录 1. xxs&#xff08;dom&#xff09; 1.1 low 1.2 medium 1.3 high 1.4 impossible 2. xss&#xff08;reflected&#xff09; 反射型 2.1 low 2.2 medium 2.3 high 2.4 impossible 3. xss&#xff08;stored&#xff09;存储型 --留言板 3.1 low 3.2 medium 3.3 high 3.…

Go 语言 slice(切片) 的使用

序言 在许多开发语言中&#xff0c;动态数组是必不可少的一个组成部分。在实际的开发中很少会使用到数组&#xff0c;因为对于数组的大小大多数情况下我们是不能事先就确定好的&#xff0c;所以他不够灵活。动态数组通过提供自动扩容的机制&#xff0c;极大地提升了开发效率。这…

js常用的数组遍历方式

以下是一个完整的示例&#xff0c;将包含图片、文字和数字的数组渲染到 HTML 页面&#xff0c;使用 ​多种遍历方式​ 实现不同的渲染效果&#xff1a; 1. 准备数据&#xff08;数组&#xff09; const items [{ id: 1, name: "苹果", price: 5.99, image: "h…

【网络编程】五、三次握手 四次挥手

文章目录 Ⅰ. 三次握手Ⅱ. 建立连接后的通信Ⅲ. 四次挥手 Ⅰ. 三次握手 ​ 1、首先双方都是处于未通信的状态&#xff0c;也就是关闭状态 CLOSE。 ​ 2、因为服务端是为了服务客户端的&#xff0c;所以它会提前调用 listen() 函数进行对客户端请求的监听。 ​ 3、接着客户端就…

从 AGI 到具身智能体:解构 AI 核心概念与演化路径全景20250509

&#x1f916; 从 AGI 到具身智能体&#xff1a;解构 AI 核心概念与演化路径全景 作者&#xff1a;AI 应用实践者 在过去的几年中&#xff0c;AI 领域飞速发展&#xff0c;从简单的文本生成模型演进为今天具备复杂推理、感知能力的“智能体”系统。本文将从核心概念出发&#x…

Docker Compose 的历史和发展

这张图表展示了Docker Compose从V1到V2的演变过程&#xff0c;并解释了不同版本的Compose文件格式及其支持情况。以下是对图表的详细讲解&#xff1a; Compose V1 No longer supported: Compose V1已经不再支持。Compose file format 3.x: 使用了版本3.x的Compose文件格式。 …

从 JIT 即时编译一直讲到CGI|FastGGI|WSGI|ASGI四种协议的实现细节

背景 我一度理解错了这个东西&#xff0c;之前没有AI的时候&#xff0c;也没深究过&#xff0c;还觉得PHP8支持了常驻内存的运行的错误理解&#xff0c;时至今日再来看这个就很清晰了。 另外&#xff0c;早几年对以上4个协议&#xff0c;我也没搞懂&#xff0c;时至今日&…