【动手学深度学习】2.4. 微积分

news2026/3/12 13:49:10

2.4. 微积分

微积分的起源：

古希腊人通过逼近法（多边形边数↑ → 面积逼近圆）发展出积分的思想。
微分，在 2000 多年后被发明，主要用于解决优化问题。

深度学习中的应用：

优化（optimization）：用模型拟合观测数据的过程；
泛化（generalization）：数学原理和实践者的智慧，能够指导我们生成出有效性超出用于训练的数据集本身的模型。

微积分是深度学习中不可或缺的一部分，主要用于优化问题。为了帮助更好理解深度学习中的优化问题，将介绍深度学习中常用的微分知识。

1）导数和微分

导数是微积分基础概念之一。可解释为函数相对其变量的瞬时变化率。假设我们有个函数 f(x) ，其导数定义为：
$\lim_{h \to 0} \frac{f(x+h) - f(x)}{h}$

导数的计算在深度学习中非常重要，因为它是几乎所有优化算法的关键步骤。

（1）代码示例

以下是一个计算函数 $f(x) = 3x^2 - 4x$ 在 x = 1 处导数的代码示例：

import numpy as np

def f(x):
  return 3 * x ** 2 - 4 * x

def numerical_lim(f, x, h):
  return (f(x + h) - f(x)) / h

h = 0.1
for i in range(5):
  print(f'h={h:.5f}, numerical limit={numerical_lim(f, 1, h):.5f}')
  h *= 0.1

输出结果：

h=0.10000, numerical limit=2.30000
h=0.01000, numerical limit=2.03000
h=0.00100, numerical limit=2.00300
h=0.00010, numerical limit=2.00030
h=0.00001, numerical limit=2.00003

从结果可以看出，当 h 趋近于 0 时，(f(x + h) - f(x)) / h 的数值结果接近 2 。

（2）导数和微分符号

对于导数有：

$\frac{dy}{dx} = \frac{df}{dx} = \frac{d}{dx} f(x) = Df(x) = D_x f(x)$

其中， $\frac{d}{dx}和D$ 是微分运算符，表示微分操作。对常见函数求微分：

$D C = 0$ （C是一个常数）
$Dx^n = nx^{n-1}$ （幂律（power rule），n是任意实数）
$De^x = e^x$
$D\ln(x) = 1/x$

微分法则：

若 f 和 g 都是可微的函数，且 C 是常数，那么以下法则适用：

常数相乘法则： $\frac{d}{dx} [Cf(x)] = C \frac{d}{dx} f(x)$
加法法则： $\frac{d}{dx} [f(x) + g(x)] = \frac{d}{dx} f(x) + \frac{d}{dx} g(x)$
乘法法则： $\frac{d}{dx} [f(x)g(x)] = f(x) \frac{d}{dx} [g(x)] + g(x) \frac{d}{dx} [f(x)]$
除法法则： $\frac{d}{dx} \left[\frac{f(x)}{g(x)}\right] = \frac{g(x) \frac{d}{dx} [f(x)] - f(x) \frac{d}{dx} [g(x)]}{[g(x)]^2}$

2）偏导数

目前为止，我们只讨论了仅含一个变量的函数的微分。在深度学习中，函数通常依赖于许多变量。因此，我们需要将微分的思想推广到多元函数（multivariate function）上。

设 $y=f(x_1,x_2,…,x_n)$ 是一个具有 n 个变量的函数。y 关于第 i 个参数 $x_i$ 的偏导数（partial derivative）为：

$\frac{\partial y}{\partial x_i} = \lim_{h \to 0} \frac{f(x_1, \ldots, x_{i-1}, x_i + h, x_{i+1}, \ldots, x_n) - f(x_1, \ldots, x_i, \ldots, x_n)}{h}$

为了计算 $\frac{\partial y}{\partial x_i}$ ，我们可以简单地将 $x_1,…,x_{i−1},x_{i+1},…,x_n$ 看作常数，并计算 y 关于 $x_i$ 的导数。对于偏导数的表示，以下是等价的：

$\frac{\partial y}{\partial x_i} = \frac{\partial f}{\partial x_i} = f_{x_i} = f_i = D_i f = D_{x_i} f$

3）梯度

我们可以连结一个多元函数对其所有变量的偏导数，以得到该函数的梯度（gradient）向量。具体而言，设函数 $\mathbb{R}^{n} \to \mathbb{R}$ 的输入是一个列向量 $[x_1, x_2, \ldots, x_n]^\top$ ，并且输出是一个标量。函数 $f (x)$ 相对于 $x$ 的梯度是一个包含 $n$ 个偏导数的向量：

$\nabla_{\mathbf{x}} f(\mathbf{x}) = \left[ \frac{\partial f(\mathbf{x})}{\partial x_1}, \frac{\partial f(\mathbf{x})}{\partial x_2}, \cdots, \frac{\partial f(\mathbf{x})}{\partial x_n} \right]^\top$

其中 $\nabla_x f(x)$ 通常在没有歧义时简写为 $\nabla f(x)$ 。

假设 $x$ 为 $n$ 维向量，在微分多元函数中经常使用以下规则：

对于所有 $\in \mathbb{R}^{m \times n}$ ，有 $\nabla_x (Ax) = A^\top$
对于所有 $\in \mathbb{R}^{n \times m}$ ，有 $\nabla_x (x^\top A) = A$
对于所有 $\in \mathbb{R}^{n \times n}$ ，有 $\nabla_x (x^\top A x) = (A + A^\top)x$
$\nabla_x \|x\|^2 = \nabla_x (x^\top x) = 2x$

同样，对于任何矩阵 $X$ ，有 $\nabla_X \|X\|_F^2 = 2X$ 。梯度在深度学习优化算法的设计中具有重要作用。

4）链式法则

然而，上面方法可能很难找到梯度。这是因为在深度学习中，多元函数通常是复合（composite）的，所以难以应用上述任何规则来微分这些函数。幸运的是，链式法则可以被用来微分复合函数。

让我们先考虑单变量函数。假设函数 $y = f (u)$ 和 $u = g (x)$ 都是可微的，根据链式法则：

$\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx} \quad$

现在考虑一个更一般的场景，即函数具有任意数量的变量的情况。假设可微分函数 $y$ 有变量 $u_1, u_2, \ldots, u_m$ ，其中每个可微分函数 $u_i$ 都有变量 $x_1, x_2, \ldots, x_n$ 。注意， $y$ 是 $x_1, x_2, \ldots, x_n$ 的函数。对于任意 $\ldots, n$ ，链式法则给出：

$\frac{\partial y}{\partial x_i} = \frac{\partial y}{\partial u_1} \cdot \frac{\partial u_1}{\partial x_i} + \frac{\partial y}{\partial u_2} \cdot \frac{\partial u_2}{\partial x_i} + \cdots + \frac{\partial y}{\partial u_m} \cdot \frac{\partial u_m}{\partial x_i} \quad$