机器学习算法原理—

机器学习算法原理——感知机

news2025/12/16 12:54:51

感知机

输入空间： $\mathcal X\subseteq{\bf R^n}$ ；输入： $x=\left(x^{(1)},x^{(2)},\cdot\cdot\cdot,x^{(n)}\right)^{T}\in{\mathcal{X}}$

输出空间： ${\mathcal Y}=\{+1,-1\}$ ；输出： $\in \mathcal{Y}$

感知机：
$f(x)=\mathrm{sign}(w\cdot x+b)=\left\{\begin{array}{l l}{{+1,}}&{{w\cdot x+b\geq0}}\\ {{-1,}}&{{w\cdot x+b\lt 0}}\end{array}\right.$
其中， $\left(w^{(1)},\,w^{(2)},\,\cdot\,\cdot\,\cdot\,\mathrm{,\,}w^{(n)}\right)^{T}\,\in {\bf R^n}$ （Weight）， $\in \bf R$ 称为偏置（Bias）， $\cdot x$ 表示内积
$\cdot x=w^{(1)} x^{(1)}+w^{(2)} x^{(2)}+\cdots+w^{(n)} x^{(n)}$
假设空间： ${\mathcal{F}}=\{{\mathcal{f}}|\;{\mathcal{f}}(x)=w\cdot x+b\}$

几何含义

在这里插入图片描述

线性方程：
$\cdot x + b = 0$
特征空间 ${\bf R^n}$ 中的一个超平面： $\rm S$ ；法向量： $w$ ；截距： $b$

条件

数据集的线性可分性：

给定数据集：
$T=\{(x_{1},y_{1}),(x_{2},y_{2})\cdot\cdot\cdot\cdot,(x_{N},y_{N})\}$
若存在某个超平面 $\rm S$ ：
$w\cdot x+b=0$
能够将数据集的正负实例点完全正确的划分到超平面两侧，即：
$\left\{\begin{array}{l l}{{y_{i}=+1,}}&{{ w\cdot x_{i}+b\gt 0}}\\ {{y_{i}=-1,}}&{{ w\cdot x_{i}+b\lt 0}}\end{array}\right.$
那么，称 $T$ 为线性可分数据集；否则，称 $T$ 为线性不可分。

$\forall x_{0}\in{\bf R^n}$ 到 $\rm S$ 的距离：
$\frac{1}{\|w\|}\left|w \cdot x_0+b\right|$
这里， $\|w\|$ 是 $w$ 的 $L_2$ 范数。

若 $x_0$ 是正确分类点，则：

$\frac{1}{\|w\|}\left|w \cdot x_0+b\right|=\left\{\begin{aligned} \frac{w \cdot x_0+b}{\|w\|}, & y_0=+1 \\ -\frac{w \cdot x_0+b}{\|w\|}, & y_0=-1 \end{aligned}\right.$

若 $x_0$ 是错误分类点，则：

$\frac{1}{\|w\|}\left|w \cdot x_0+b\right|=\left\{\begin{array}{cc} -\frac{w \cdot x_0+b}{\|w\|}, & y_0=+1 \\ \frac{w \cdot x_0+b}{\|w\|}, & y_0=-1 \end{array}=\frac{-y_0\left(w \cdot x_0+b\right)}{\|w\|}\right.$

误分类点 $x_i$ 到 $\rm S$ 的距离：
$$

\frac{1}{|w|}\left|w \cdot x_0+b\right|
$KaTeX parse error: Can't use function '$' in math mode at position 10: 所有误分类点到 $̲\rm S$ 的距离：$
-\frac{1}{|w|} \sum_{x_i \in M} y_i\left(w \cdot x_i+b\right)
$$
其中， $M$ 代表所有误分类点的集合。

损失函数：
$L(w,b)=-\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b)$

模型参数估计：
$\underset{w, b}{\arg \min } L(w, b)$

梯度下降法

梯度：指某一函数在该点处最大的方向导数，沿着该方向可取得最大的变化率。
$\nabla={\frac{\partial f(\theta)}{\partial\theta}}$
若 $f(\theta)$ 是凸函数，可通过梯度下降法进行优化：
$\theta^{(k+1)}=\theta^{(k)}-\eta\nabla F(\theta^{(k)})$
$\eta$ 表示步长，在统计学中表示学习率。

输入：目标函数 $f(\theta)$ ，步长 $\eta$ ，计算精度 $\epsilon $ ；

输出： $f(\theta)$ 的极小值点 $\theta^*$ 。

选取初始值 $\theta^{(0)}\in{\bf R^n}$ ，置 $k = 0$ 。
计算 $f(\theta^{(k)})$ 。
计算梯度 $\nabla f(\theta^{(k)})$ 。
置 $\theta^{(k+1)}=\theta^{(k)}-\eta\nabla F(\theta^{(k)})$ ，计算 $f(\theta^{(k +1)})$ ，当 $||f(\theta^{(k+1)})-f(\theta^{(k)})||\lt \epsilon$ 或者 $||\theta^{(k+1)}-\theta^{(k)}||\lt \epsilon$ 时，停止迭代，令 $\theta^* = \theta^{(k+1)}$ 。
否则，置 $k = k + 1$ ，转到第三步。

感知机的原始形式（随机梯度下降法）

损失函数：
$L(w,b)=-\sum_{x_{i}\in M}y_{i}(w\cdot x_{i}+b)$
梯度：
$\nabla_{w}L(w,b)=-\sum_{x_{i}\in M}y_{i}x_{i} ; \qquad \qquad \nabla_{b}L(w,b)=-\sum_{x_{i}\in M}y_{i}$
梯度下降：
$\theta^{(k+1)}=\theta^{(k)}-\eta\nabla F(\theta^{(k)})$
参数更新：

批量梯度下降法（Batch Gradient Descent）：每次迭代时使用所有误分类点来进行参数更新。
$w\leftarrow w+\eta\sum_{x_{i}\in M}y_{i}x_{i};\qquad\qquad b\leftarrow b+\eta\sum_{x_{i}\in M}y_{i}$
其中， $\eta(0<\eta \leq 1)$ 代表步长。
随机梯度下降法（Stochastic Gradient Descent）：每次随机选取一个误分类点。

$w\leftarrow w+\eta y_{i}x_{i};\qquad\qquad b\leftarrow b+\eta y_{i}$

算法：
输入：训练集：
$T=\{(x_{1},y_{1}),(x_{2},y_{2})\cdot\cdot\cdot\cdot,(x_{N},y_{N})\}$
其中， $x_i \in \mathcal X \subseteq \bf R^n$ ， $\in \mathcal Y = {+1,-1}$ ；步长 $\eta(0 < \eta \leq 1)$

输出： $w, b$ ；感知机模型 $\mathrm{sign}(w \cdot x + b)$

选取初始值 $w_0, b_0$ ；
于训练集中随机选取数据 $x_i, y_i)$ ；
若 $y_i (w \cdot x_i + b) \leq 0$ ：

$w\leftarrow w+\eta y_{i}x_{i};\qquad\qquad b\leftarrow b+\eta y_{i}$

感知机的对偶形式

在原始形式中，若 $x_i, y_i)$ 为误分类点，更新参数：
$w\leftarrow w+\eta y_{i}x_{i};\qquad\qquad b\leftarrow b+\eta y_{i}$
假设初始值 $w_0 = 0, b_0 = 0$ ，对误分类点 $x_i,y_i)$ 通过上述公式更新参数，修改 $n_i$ 次之后， $w, b$ 的增量分别为 $\alpha_i y_i x_i$ 和 $\alpha_i y_i$ ，其中 $\alpha_i = n_i \eta$ ， $n_i$ 是点 $x_i,y_i)$ 被误分类的次数。

最后学习到的参数为：
$w=\sum_{i=1}^{N}\alpha_{i}y_{i}x_{i};\qquad \qquad b=\sum_{i=1}^{N}\alpha_{i}y_{i}$
算法：
输入：训练集：
$T=\{(x_{1},y_{1}),(x_{2},y_{2})\cdot\cdot\cdot\cdot,(x_{N},y_{N})\}$
其中， $x_i \in \mathcal X \subseteq \bf R^n$ ， $\in \mathcal Y = {+1,-1}$ ；步长 $\eta(0 < \eta \leq 1)$

输出： $\alpha,b$ ；感知机模型 $\mathrm{sign}(\sum_{j = 1}^{N} \alpha_i y_i x_j \cdot x + b)$ ，其中 $\alpha = {(\alpha_1, \alpha_2, \cdots, \alpha_N)}^T$

选取初始值 $\alpha^{\lt 0\gt }=(0,0,\cdot\cdot\cdot,0)^{T},\ b^{\lt 0\gt }=0$ ，上标表示被误分类的次数；
于训练集中随机选取数据 $x_i,y_i)$ ；
若 $y_{i}(\sum_{j=1}^{N}\alpha_{j}y_{j}x_{j}\cdot\,x_{i}+b)\leq0$ ，
${\alpha} \leftarrow {\alpha +\eta};\qquad\qquad b\leftarrow b+\eta y_{i}$
转（2），直至没有误分类点。

Gram 矩阵

对于感知机的对偶形式中的（3）： $y_{i}(\sum_{j=1}^{N}\alpha_{j}y_{j}x_{j}\cdot\,x_{i}+b)\leq0$

迭代条件：
$\begin{aligned} y_i\left(\sum_{j=1}^N \alpha_j y_j x_j \cdot x_i+b\right) & \left.=y_i\left[\left(\alpha_1 y_1 x_1+\alpha_2 y_2 x_2+\cdots+\alpha_N y_N x_N\right) \cdot x_i+b\right)\right] \\ & =y_i\left(\alpha_1 y_1 x_1 \cdot x_i+\alpha_2 y_2 x_2 \cdot x_i+\cdots+\alpha_N y_N x_N \cdot x_i+b\right) \\ & \leq 0 \end{aligned}$
Gram 矩阵： $N$ 维欧式空间中任意 $k$ 个向量之间两两的内积所组成的矩阵
$G=\left[x_i \cdot x_j\right]_{N \times N}=\left[\begin{array}{cccc} x_1 \cdot x_1 & x_1 \cdot x_2 & \cdots & x_1 \cdot x_N \\ x_2 \cdot x_1 & x_2 \cdot x_2 & \cdots & x_2 \cdot x_N \\ \vdots & \vdots & & \vdots \\ x_N \cdot x_1 & x_N \cdot x_2 & \cdots & x_N \cdot x_N \end{array}\right]$

在感知机的对偶形式中，可将 Gram 矩阵提前算出。

总结归纳

超平面：在几何空间中，如果环境空间中是 $n$ 维，那么它所对应的超平面就是 $n - 1$ 维的子空间。
感知机必须要求数据集线性可分，因为算法的停止条件就是没有误分类点。
对于所有误分类点到 $\rm S$ 的距离： $\frac{1}{\|w\|}\left|w \cdot x_0+b\right|$ ， $\frac{1}{\|w\|}$ 不影响损失函数的正负值判断，同时不影响感知机的分类结果，故在损失函数中不体现。
梯度可以简单理解为对损失函数求偏导。
梯度下降算法无法处理鞍点的情况，故梯度下降算法只能得到局部最优点，无法找到全局最优解。
当数据维度过高时，批量梯度算法的求解过于复杂，甚至会出现无法求出最优解的情况，故在相关算法中，随机梯度下降法仍是求解的第一选择。
提前将 Gram 矩阵算出，在对偶形式的感知机进行函数计算时，直接利用 Gram 矩阵预先计算的结果，会提高算法的速度。
若采用随机梯度下降法， $y_{i}(\sum_{j=1}^{N}\alpha_{j}y_{j}x_{j}\cdot\,x_{i}+b)\leq0$ 实际上只有一个误分类点，并无求和。
感知机求得的超平面不唯一，若唯一则需要添加限定条件，这是支持向量机的内容。