1. 首先 PCA 最原始的想法是：

设 $\mathbf{V}$ 为 ${d}$ 维 线性空间（即 $\mathbb{R}^d$ ）， $\mathbf{W}$ 为 $\mathbf{V}$ 的 $k$ 维线性子空间（ $k < d$ ）。在 $\mathbf{W}$ 中找到数据 $\mathbf{D}=\{ \mathbf{x_1},\mathbf{x_2},\dots \mathbf{x_n} \}$ 最准确的表达。 $\mathbf{x_i} \in \mathbb{R}^d, i = 1,\dots,n$
一组 $d$ 维向量 $\{\mathbf {e_1,e_2,…,e_k}\}$ ，它形成 $\mathbf {W}$ 的一组正交基。在 $\mathbf{W}$ 空间中的任何向量都可以被表示为 $\sum_{i=1}^{k}\alpha_i \mathbf{e}_{i}$
那么向量 $\mathbf{x_1}$ 可以被表示为
$\sum_{i=1}^{k}\alpha_{1i} \mathbf{e}_{i}$
针对向量 $\mathbf{x_1}$ ，误差为
$\mathbf{error} = \Vert \mathbf{x_1}-\sum_{i=1}^{k}\alpha_{1i} \mathbf{e}_{i} \Vert^2$

所以，接下来，我们要把所有的 $\mathbf{error}$ 加和，每个 $\mathbf{x_j}$ 可以表示为
$\mathbf{x_j}=\sum_{i=1}^{k}\alpha_{ji} \mathbf{e}_{i}$

那么所有的误差是：
在这里插入图片描述
为了求得 $\mathbf{J}$ 的最小值，我们需要求相关的偏导数，也需要限制 $\{\mathbf {e_1,e_2,…,e_k}\}$ 是正交向量。

2. 让我们先化简 $\mathbf{J}$ 的表达：

在这里插入图片描述
注意，下面 $\mathbf{x_j}^t$ 右上角的 t 表示向量的转置。

在这里插入图片描述

3. 求偏导

对 $\alpha_{**}$ 求偏导， $\alpha_{**}$ 的下标取 $m l$ ，即 $\alpha_{ml}$
在这里插入图片描述

因此，针对 $\alpha_{ml}$ 的最优点是
在这里插入图片描述

将 $\alpha_{ml}=\mathbf{x_m}^t\mathbf{e_l}$ 回代 $\mathbf{J}$ 的表达式
得到
在这里插入图片描述

得到
在这里插入图片描述

将 $\mathbf{J}$ 表达式的后半部分重写成下面的形式
$(\mathbf{a}^{t}\mathbf{b})^{2}=(\mathbf{a}^{t}\mathbf{b})(\mathbf{a}^{t}\mathbf{b})=(\mathbf{b}^{t}\mathbf{a})(\mathbf{a}^{t}\mathbf{b})=\mathbf{b}^{t}(\mathbf{a}\mathbf{a}^{t})\mathbf{b}$

在这里插入图片描述
其中， $\mathbf{S}$ 等于
$\mathbf{S}=\sum_{j=1}^{n}\mathbf{x}_j\mathbf{x}_j^t$
$\mathbf{S}$ 被称为 scatter 矩阵，它只不过是 $n - 1$ 乘上样本协方差矩阵 $\hat{\Sigma}$ ：

此时，

那么最小化 $\mathbf{J}$ 等价于最大化
在这里插入图片描述

4. 拉格朗日乘子法

同时，因为前文假设 $\mathbf{e_i}$ 是正交单位向量，也要限制所有
$\mathbf{e}_{i}^t\mathbf{e}_{i} =1 ,\quad i=1,\dots,n$
使用拉格朗日乘子法，对所有的限制使用相应的 $\lambda_1,\dots,\lambda_k$
现在，我们需要最小化新的优化函数
在这里插入图片描述
求关于 $\mathbf{e}_m$ 的所有的偏导数：

所以， $\lambda_m$ 跟 $\mathbf{e}_m$ 分别是 scatter矩阵 $\mathbf{S}$ 的特征值与特征向量。

将 $\mathbf{e}_m$ 回代下式
在这里插入图片描述
而且使用推导结论： $\mathbf{S}\mathbf{e}_m=\lambda_m\mathbf{e}_m$
可以得到

因此，为了最小化 $\mathbf{J}$ ，将 $\mathbf{S}$ 的 $k$ 个特征向量对应于 $k$ 个最大特征值作为 $\mathbf{W}$ 的基底。

$\mathbf{S}$ 的特征值越大，对应特征向量方向的方差越大。注意，这个结论还没证明，在下面一篇文章给出证明，先假设这个结论是正确的。

直观地，从在主成分分析系列（一）概览及数据为何要中心化这篇文章中例子来看，
在这里插入图片描述
这个结果正是我们所期望的：将 $\mathbf{x}$ 投影到方差最大的 $k$ 维子空间中
这是非常直观的：将注意力限制在分散最大的方向上。

因此，PCA 可以被认为是通过旋转旧轴（因为轴需要满足过原点，相互正交地限制）来寻找新的正交基，直到找到最大方差的方向。
在这里插入图片描述

5.PCA用作数据逼近

令 $\{\mathbf {e_1,e_2,…,e_d}\}$ 是 scatter 矩阵 $\mathbf{S}$ 的所有特征向量，并且是按照它们对应的特征值大小降序排列的。那么
不需要任何近似，任何的样本 $\mathbf{x_i}$ 都能写成
在这里插入图片描述
系数 $\alpha_m=\mathbf{x}_i^{t}\mathbf{e}_m$ 被称作主成分(principle component )