线性模型基本形式

你要训练的线性模型（模型不一定是线性的，为方便理解，此处以线性举例）：
$f(\bm{x}) = w_1x_1 + w_2x_2 + w_3x_3 + \cdots + w_dx_d + b$ $f(\bm{x}) = \bm{w}^\top\bm{x} + b$ 其中 $\bm{x} = (x_1, x_2, x_3, \cdots, x_d)$ 是你要输入的数据，组成了输入 $d$ 维特征向量 $\bm{x}$ （这个特征向量各种各样，可以来自数据集的人类可以理解的具象数据，也可以用 CNN 卷出来的人类理解不了的抽象数据）； $\bm{w}, b$ 作为模型权重参数（并非网络参数，网络是求模型的，模型本身有自己的参数，网络本身也有自己的参数如深度、维度）； $f(\bm{x})$ 作为输出，如分类结果、回归预测。

例子一，猫狗分类：
- 特征空间内输入 $x_1$ 表示耳朵长度， $x_2$ 表示鼻头子长度， $x_3$ 表示胡子长度等；
- $w_1, w_2, w_3, \cdots, b$ 是网络要训练得到的这个线性模型的参数，目前未知；
- $f(\bm{x}) \in [0, 1]$ ，做为最终输出，越接近 $0$ 越像猫，越接近 $1$ 越像狗。
例子二，房价回归预测：
- 特征空间内输入 $x_1$ 地段（抽象，但你可以编码为浮点数）， $x_2$ 表示房屋面积， $x_3$ 表示套型（抽象，但你可以编码为浮点数）；
- $w_1, w_2, w_3, \cdots, b$ 是网络要训练得到的这个线性模型的参数，目前未知；
- $f(\bm{x}) \in [0, 1]$ ，做为最终输出，越接近 $0$ 越像猫，越接近 $1$ 越像狗。
例子三， $0 - 9$ 手写体识别：
- 输入灰度图像，经过 CNN 卷出来特征空间内的特征值 $\bm{x} = (x_1, x_2, x_3, \cdots, x_d)$ ，输入后面的线性模型（不一定是线性，但总有一个函数，能将各个 $0 - 9$ 手写体的特征映射到 $0 - 9$ 的标准答案上，此处仅为理解方便）；
- $w_1, w_2, w_3, \cdots, b$ 是网络要训练得到的这个线性模型的参数，目前未知；
- $f(\bm{x}) \in \mathbb{N}, f(\bm{x}) \leq 9$ ，做为最终输出。

以 CNN 为例：左侧为原始手写体灰度图像（人类看得懂，网络看不懂），右侧为经过卷积后的特征图像（人类看不懂，网络目前也看不懂，但是处理起来更方便了；当然后续可能要经过多层卷积并池化后，才可将浓缩后的数据送入网络训练）。
以下为 4*4 单元内最大池化示例，进一步将数据量浓缩。

浓缩后的数据可送入全连接层进行线性回归（打个比方）。

线性回归

本节会解答 $w_1, w_2, w_3, \cdots, b$ 作为线性模型的未知参数，如何训练，训练目标是什么的问题。

数据集

也可以叫做样本，如 $m$ 个样本： $\{ (\bm{x_1}, y_1), (\bm{x_2}, y_2), \cdots, (\bm{x_m}, y_m) \}$ ；其中每个样本输入存在 $d$ 维特征： $\bm{x_i} = (x_{i1}, x_{i2}, \cdots, x_{id})$ ；每个样本对应一个标准答案输出 $y_i$ （当然非线性模型或其他模型下你可能会得到一个多维向量输出 $\bm{y_i}$ ）。

学习目标

毋庸置疑，如果一个模型训练的好，学习后应该有回答等于标准答案，也就是 $f(\bm{x_i}) = y_i$ ，或误差损失 $(f(\bm{x_i}) - y_i)^2 = 0$ 。换言之，线性回归试图习得： $f(\bm{x_i}) = \bm{w_i}\bm{x_i} + b, f(\bm{x_i}) \simeq y_i$

均方误差

为了衡量网络回答 $f(\bm{x_i})$ 与标准答案 $y_i$ 之间的差别，以确定 $\bm{w}, b$ 的解 $\bm{w^*}, b^*$ ，我们可以引入均方误差：
$(\bm{w^*}, b^*) = \argmin_{(\bm{w}, b)} \sum_{i=1}^{m}{(f(\bm{x_i}) - y_i)^2} = \argmin_{(\bm{w}, b)} \sum_{i=1}^{m}{(y_i - \bm{w^\top x_i } - b)^2}$
这本质上是一个优化问题，类似凸优化中求何处 $(\bm{w}, b)$ 取值，使得整体 $l o s s$ 最小。 BP 中可对未知参数求偏导采用梯度下降法反向传播，迭代更新每个神经元参数，以求出最优的 $(\bm{w^*}, b^*)$ 。现实优化问题可采用模拟退火、随机梯度下降、遗传算法等完成此过程。

注意，这里 $\bm{x}$ 作为数据集输入为已知， $y_i$ 作为数据集标准输出也为已知，你要求的反而是模型的未知组参数 $(\bm{w}, b)$ 的解 $(\bm{w^*}, b^*)$ 。

监督学习

数据集 $D$ 可以划分为两块 $D_1\cup D_2$ 。一块 $D_1$ 用于训练 $(\bm{w^*}, b^*)$ ，称为监督集；一块 $D_2$ 用于测试你获得的模型 $f(\bm{x}) = \bm{w^*}^\top\bm{x} + b$ ，验证合理性或享受成就感，称为测试集。