主成分分析系列(一)概览及为什么数据要中心化

news2025/7/19 11:43:41

一、概览

主成分分析(Principle Component Analysis,PCA)算法属于数据降维算法里面的一种。数据降维算法的主要想法是从高维度数据中找到一种结构,这种结构蕴含了数据中的大部分信息,从而将高维数据降维到低维数据,方便观察、可视化与后续处理。准确地说,PCA算法是在较低维空间中寻求原始数据最准确的数据表示。

二、PCA算法在2维上的一个例子

图一展示将数据 x \mathbf{x} x 投影到一维子空间(一条直线,但其实这里说一维子空间有些不严谨,但是不影响理解,后文有说明),以最小化投影误差。投影误差是点到直线的距离(左图是红色虚线,右图是绿色虚线)。
请注意,从图一上观察到,用于投影的直线,右图中的比左图中的好,因为数据 x \mathbf{x} x 在后者上投影误差更小。
直观上看,用于投影的最小化数据 x \mathbf{x} x投影误差的方向同时就是使得数据 x \mathbf{x} x方差最大的方向。这个在后面的文章会有数学推导证明。

在这里插入图片描述

图 1:

选取图一右侧的直线作为投影直线。数据投影到投影线上后的结果如图2右侧所示。

  • 请注意,投影得到的新数据 y \mathbf{y} y 与旧数据 x \mathbf{x} x投影方向(绿色直线)方向上具有相同的方差
  • PCA 保留数据中最大的方差。 我们将证明这个结论,目前这只是 PCA 将做什么的直觉。

在这里插入图片描述

图 2:

为推导PCA算法需要的线性代数知识准备

V \mathbf{V} V d {d} d线性空间 W \mathbf{W} W V \mathbf{V} V k k k线性子空间
我们总能找到一组 d d d 维向量 { e 1 , e 2 , … , e k } \{\mathbf {e_1,e_2,…,e_k}\} {e1,e2,,ek},它形成 W \mathbf {W} W的一组正交基 。

  • < e i , e j > <\mathbf {e_i,e_j}> <ei,ej> = 0, 如果 i i i 不等于 j j j , 注意 < ∗ , ∗ > < *,* > <,> 表示向量内积
  • < e i , e j > <\mathbf {e_i,e_j}> <ei,ej> = 1, 如果 i i i 等于 j j j
    则,在 W \mathbf{W} W空间中的任何一个向量,都可以表示为
    α 1 e 1 + α 2 e 2 + … α k e k = ∑ i = 1 k α i e i \alpha_1 \mathbf{e}_{1}+\alpha_2 \mathbf{e}_{2}+ \dots \alpha_k \mathbf{e}_{k}=\sum_{i=1}^{k}\alpha_i \mathbf{e}_{i} α1e1+α2e2+αkek=i=1kαiei
    其中 α 1 , α 2 , … , α k \alpha_1,\alpha_2,\dots,\alpha_k α1,α2,,αk 是标量系数。

回想一下在线性空间中线性子空间的定义,子空间 W \mathbf{W} W 必须要包含零向量,即它穿过原点。但是图2的投影直线并不穿过原点。所以

后续所有内容都需要投影到子空间 W \mathbf{W} W, 因此我们需要平移所有内容,包括点跟线,使得投影直线过原点。
在这里插入图片描述

在这里插入图片描述

图 3:

这可以通过每个样本先减去样本均值来实现:
μ ^ = 1 n ∑ i = 1 n x i \hat{\mu}=\frac{1}{n}\sum_{i=1}^n{\mathbf{x_i}} μ^=n1i=1nxi
x i : = x i − μ ^ , i = 1 , … , n \mathbf{x_i} := \mathbf{x_i} -\hat{\mu}, i = 1,\dots, n xi:=xiμ^,i=1,,n

得到的新的样本数据的均值为0。
事实,我们所作的是改变了坐标系。
在这里插入图片描述

图 4:

协方差

当然,数据需要中心化,也可以从协方差角度理解:

为什么数据需要中心化?

是为了 下面这个表达式是协方差矩阵
1 n − 1 X X T o r 1 n − 1 X T X \frac{1}{n-1}\mathbf{X}\mathbf{X}^T \quad or \quad \frac{1}{n-1}\mathbf{X}^T\mathbf{X} n11XXTorn11XTX
上面两个式子转置符号前后位置跟 X \mathbf{X} X 每一行是一个随机变量,还是每一列是一个随机变量相关。
协方差矩阵的维度是 d × d d \times d d×d,注意 d d d 是随机变量的数目,即属性的数目。跟样本的数目要区分开。

参考文献

Introduction to Statistical Machine Learning
Lecture 2
Anders Eriksson
School of Computer Science
University of Adelaide, Australia

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/724074.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

开利网络受邀参与广州三会数字化转型主题研讨会

7月4日&#xff0c;开利网络受邀来到位于广州黄埔的视源集团总部&#xff0c;参与由广州三会组织的企业数字化转型主题系列研讨会。降本增效是企业经营的重要目标&#xff0c;本次数字化转型议题则从“会议”这一要素出发&#xff0c;探讨如何利用软硬件技术能力帮助企业完成会…

《疯狂Android讲义》第2版 第3.5.2节关于Handler的代码

类似定时切换商品效果&#xff1a; 布局文件&#xff1a; <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:app"http://schemas.android.com/apk/res-…

Python自动化测试面试题(精选版)

目录 项目相关 测试框架 测试工具 测试方法 Python基础 ​&#x1f381;更多干货 完整版文档下载方式&#xff1a; 今天由凡哥给你介绍一些Python自动化测试中常见的面试题&#xff0c;涵盖了Python基础、测试框架、测试工具、测试方法等方面的内容&#xff0c;希望能够…

华为OD机试真题 Python 实现【优秀学员统计】【2023Q1 100分】,附详细解题思路

目录 一、题目描述二、输入描述三、输出描述四、补充说明五、解题思路六、Python算法源码七、效果展示1、输入2、输出3、说明 一、题目描述 公司某部门软件教导团正在组织新员工每日打卡学习活动&#xff0c;他们开展这项学习活动已经一个月了&#xff0c;所以想统计下这个月优…

pdf转ppt怎么转换?分享这几个方法给大家!

将PDF文件转换为PPT演示文稿是一项常见需求&#xff0c;无论是为了编辑、演示还是共享文件。 随着信息技术的不断进步&#xff0c;我们经常遇到需要将PDF文件转换为PPT演示文稿的情况。以下是四种简便的方法&#xff0c;供大家参考。 方法一&#xff1a;使用记灵在线工具 通…

Salesforce Associate认证考试指南来啦!(内含备考攻略)

Salesforce Associate认证是一项全新的入门级认证&#xff0c;针对0-6个月Salesforce经验的学习者。这一新认证不再强调实践专业知识&#xff0c;而是验证并增强那些拥有Salesforce基础知识的备考者。这些知识包括了解CRM平台的用途、解决的业务需求&#xff0c;以及如何使用Sa…

若依管理系统包名修改工具下载,使用教程(本人实测有效)

下载地址&#xff1a; 若依官网指定下载-Gitee包名修改文件下载地址 使用方法&#xff1a; 1.选择文件的地方需要选择zip压缩文件&#xff0c;把从若依官网拉下来的代码压缩成zip文件即可

Django实现简单的音乐播放器 3

在原有音乐播放器上请求方式优化和增加加载本地音乐功能。 效果&#xff1a; 目录 播放列表优化 设置csrf_token 前端改为post请求 视图端增加post验证 加载歌曲 视图 设置路由 模板 加载layui css 加载layui js 增加功能列表 功能列表脚本实现 最终效果 总结 播…

分布式监控之Zabbix6.0监控系统一

分布式监控之Zabbix6.0监控系统 前言一、Zabbix1、介绍2、zabbix监控原理3、Zabbix6.0版本新特性4、Zabbix6.0功能组件5、Zabbix与Prometheus对比 二、Zabbix6.0部署1、部署zabbix服务端2、添加 zabbix 客户端主机3、自定义监控内容4、zabbix 自动发现5、zabbix 自动注册 前言 …

业务安全情报第十八期 | 知名手游开启公测,大批游戏账号遭抢注倒卖

目录 某知名手游遭账号抢注倒卖 倒卖游戏者的风险特征 游戏运营商快速识别倒卖账号的黑灰产 网络游戏已经成为许多人娱乐和放松的重要途径。随着游戏玩家追求迅速提升角色等级和属性的愿望日益增长&#xff0c;游戏账号倒卖、账号出租越来越多&#xff0c;并逐步衍生出一条灰…

智慧电子班牌是什么?电子班牌云平台源码的开发技术有哪些?

智慧电子班牌是什么&#xff1f; 电子班牌是一种智能交互终端&#xff0c;电子班牌可以解决“走班教学”考勤管理问题&#xff0c;将大数据、物联网和人工智能等新兴技术和教学管理工作融合&#xff0c;提升学校管理水平和管理效率。 电子班牌是安装在学校各教室门口的高清可视…

LeetCode·每日一题·2178. 拆分成最多数目的正偶数之和·贪心

作者&#xff1a;小迅 链接&#xff1a;https://leetcode.cn/problems/maximum-split-of-positive-even-integers/solutions/2332925/tan-xin-zhu-shi-chao-ji-xiang-xi-by-xun-zoioi/ 来源&#xff1a;力扣&#xff08;LeetCode&#xff09; 著作权归作者所有。商业转载请联系…

Vue2通过点击渲染循环的echarts

底下放置源码cv即可食用 几个注意事项&#xff1a; echartsData 这个变量是为了模拟后端数据格式changeTag() 这个方法是为了控制最多可以多选几条最后关于循环echarts的灵感来源于 明天也要努力 <!DOCTYPE html> <html lang"en"><head><meta…

上海亚商投顾:沪指缩量调整 PCB、CPO概念股全天领涨

上海亚商投顾前言&#xff1a;无惧大盘涨跌&#xff0c;解密龙虎榜资金&#xff0c;跟踪一线游资和机构资金动向&#xff0c;识别短期热点和强势个股。 市场情绪 沪指今日震荡调整&#xff0c;创业板指午后跌超1%。AI概念股反弹&#xff0c;存储芯片、CPO等方向领涨&#xff0c…

【MySQL】MySQL基本语句大全

个人主页&#xff1a;【&#x1f60a;个人主页】 系列专栏&#xff1a;【❤️MySQL】 文章目录 前言结构化查询语句分类MySQL语句大全&#x1f4da;DDL&#xff08;对数据库和表的操作&#xff09;&#x1f916;DQL&#xff08;查询语句&#xff09;&#x1f4bb;关键字&#x…

香橙派4和树莓派4B构建K8S集群实践之七: Jenkins

目录 1. 说明 2. 步骤 2.1 准备工作 2.2 安装 2.2.1 用jenkins原站for k8s的安装仓方法安装 2.2.2 Helm 安装 3. 相关命令 4. 遇到的问题 5. 参考 1. 说明 在k8s上部署jenkins&#xff0c;并用 jenkins.k8s-t2.com访问在namespace为devops下安装在指定节点k8s-master-…

CAN总线和DCB文件格式

目录 CAN总线和DBC格式1. CAN总线1.1 CAN总线的组织结构1.2 CAN的信号结构 2. DBC格式2.1 通用描述2.2 DBC文件的结构 3. DBC文件官方示例3. DBC文件官方示例 CAN总线和DBC格式 1. CAN总线 控制器局域网总线&#xff08;CAN&#xff0c;Controller Area Network&#xff09;一…

【避坑指南】Unity3D接入外网SDK笔记(GooglePlay/FaceBook/AppsFlyer)

这段时间折腾了一下获取归因数据相关的SDK&#xff0c;遇到非常多奇奇怪挂的报错&#xff0c;在此记录一下。 准备资源 Unity的Jar包解析器&#xff0c;下面提及的SDK都需要工具解析并下载依赖 https://github.com/googlesamples/unity-jar-resolverAndroidStudio&#xff0c…

微信小程序基础库的介绍与更改

一、什么是基础库&#xff1f; 1、基础库是小程序运行的必要环境&#xff0c;我们的开发主要就是面向基础库开发的。基础库封装了微信和手机的能力并提供给小程序使用&#xff0c;我们使用基础库提供的组件和API开发起来非常的方便。 2、基础库存在于我们的微信客户端中&…

骑行,怎么样才能安全的下坡?

大家好&#xff0c;今天我们来聊聊自行车运动中的一个重要话题&#xff1a;如何安全地骑行下坡&#xff1f; 首先&#xff0c;我们要明白&#xff0c;安全下坡的秘诀在于控制。一是速度的控制&#xff0c;二是自身姿势的控制。就像一只灵活的狐狸&#xff0c;既要控制好自己的速…