最大似然估计（Maximum Likelihood Estimation, MLE）详解

news2026/2/20 5:02:57

一、定义

最大似然估计 是一种参数估计方法，其核心思想是：
选择能使观测数据出现概率最大的参数值作为估计值。
具体来说，假设数据 $D={x_1,x_2,…,x_n}$ 独立且服从某个概率分布 $P (x ∣ θ)$ ，则通过最大化似然函数 $\mathcal{L}(\theta \mid \mathcal{D})$ 来求解参数 $θ$ 。

二、公式推导

似然函数：
数据独立时，似然函数为各数据点概率的乘积：
$\mathcal{L}(\theta \mid \mathcal{D})=\prod_{i=1}^{n} P\left(x_{i} \mid \theta\right)$
对数似然：
为简化计算，取自然对数（乘积变加法）：
$\mathcal{L}(\theta \mid \mathcal{D})=\prod_{i=1}^{n} P\left(x_{i} \mid \theta\right)$
最大化目标：
求解使对数似然最大的参数 $θ^∗$ ：
$\theta^*=\arg \max _\theta \sum_{i=1}^n \ln P\left(x_i \mid \theta\right)$
求解方法：
对 θ 求导并令导数为零，或使用梯度下降等优化算法。

三、经典例子

例1：估计正态分布的均值和方差

假设数据 $\mathcal{D}={x_1,x_2,…,x_n}$ 服从正态分布 $\mathcal{N}\left(\mu, \sigma^2\right)$ ，求 $\mu$ 和 $\sigma^2$ 估计。

似然函数：
$\mathcal{L}\left(\mu, \sigma^2\right)=\prod_{i=1}^n \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{\left(x_i-\mu\right)^2}{2\sigma^2}}$
对数似然：

$\ln \mathcal{L}=-\frac{n}{2} \ln (2 \pi)-\frac{n}{2} \ln \sigma^2-\frac{1}{2 \sigma^2} \sum_{i=1}^n(x_i-\mu)^2$
3. 求导解方程：
对 $μ$ 求导：
$\frac{\partial \ln \mathcal{L}}{\partial \mu}=\frac{1}{\sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)=0 \Rightarrow \quad \mu^*=\frac{1}{n} \sum_{i=1}^n x_i$
对 $\sigma^2$ 求导：
$\frac{\partial \ln \mathcal{L}}{\partial \sigma^2}=-\frac{n}{2 \sigma^2}+\frac{1}{2 \sigma^4} \sum_{i=1}^n\left(x_i-\mu\right)^2=0 \Rightarrow \quad \sigma^{2 *}=\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu^*\right)^2$

结论
$\mu^*$ 是样本均值， $\sigma^{2 *}$ 是样本方差（但分母为 n，有偏估计）。

例2：二项分布的参数估计

假设抛硬币 n 次，正面朝上 k 次，估计正面概率 p。

似然函数：
$\mathcal{L}§ = \binom{n}{k} p^k (1-p)^{n-k} $
对数似然：

$\ln \mathcal{L} = \ln \binom{n}{k} + k \ln p + (n - k) \ln (1 - p) $
3. 求导解方程：
$\frac{\partial \ln \mathcal{L}}{\partial p} = \frac{k}{p} - \frac{n-k}{1-p} = 0 \implies p^* = \frac{k}{n} $

结论：正面概率的 MLE 估计是观测频率 $\frac{k}{n}$

四、MLE 与大模型的关系

在大模型（如 GPT、BERT、ResNet）中，MLE 是训练目标的数学基础，但需结合工程技巧扩展：

损失函数设计：
- 交叉熵损失：分类任务中，最小化交叉熵等价于最大化对数似然。
  例如，语言模型预测下一个词的概率分布时，损失函数为：
  
  $\mathcal{L} = - \sum_{t=1}^{T} \ln P(w_t|w_{<t}, \theta)$
- 均方误差（MSE）：回归任务中，MSE 等价于假设数据服从高斯分布时的 MLE。
正则化与贝叶斯扩展：
- MLE 容易过拟合，大模型常加入正则化项（如 L2 正则），这等价于最大后验估计（MAP，贝叶斯框架下的 MLE 扩展）。
- 贝叶斯神经网络将 MLE 推广为后验分布推断（如变分推断）。
优化算法：
- 大模型参数规模巨大（如 GPT-3 有 1750 亿参数），直接求解 MLE 不可行，需使用 随机梯度下降（SGD） 或其变体（如 Adam）近似优化。
生成模型中的应用：
- 生成对抗网络（GAN）和扩散模型中，生成器的训练隐式地最大化数据的似然。
- 自回归模型（如 Transformer）显式地通过 MLE 学习序列数据的分布。

五、MLE 的局限性及应对

过拟合风险：
- 问题：MLE 倾向于拟合训练数据噪声。
- 解决方案：加入正则化项，或使用贝叶斯方法引入先验。
数据稀疏性：
- 问题：小数据场景下，MLE 估计可能不准确。
- 解决方案：数据增强、预训练（如 BERT 的 MLM 任务）。
非凸优化：
- 问题：复杂模型的似然函数可能非凸，陷入局部最优。
- 解决方案：随机初始化、动量优化、学习率调度。

六、总结

核心公式： $\theta^*=\arg \max _\theta \sum_{i=1}^n \ln P\left(x_i \mid \theta\right)$ 。
应用场景：从经典统计到深度学习，MLE 是参数估计的基石。
大模型中的角色：
- 直接指导损失函数设计（如交叉熵）。
- 结合正则化和优化算法解决高维问题。
- 生成模型和自回归模型的核心训练目标。
哲学意义：MLE 体现了“让数据自己说话”的思想，但需通过技术手段平衡拟合与泛化。