【AI知识点】激活函数（Activation Function）

news2026/2/20 13:06:24

激活函数（Activation Function） 是神经网络中的一个关键组件，负责将输入的线性组合转化为非线性输出。它赋予神经网络模型以复杂的表达能力，使其能够处理非线性问题，比如分类、图像识别和自然语言处理等任务。

1. 激活函数的作用

激活函数的主要作用是引入非线性，让神经网络能够学习复杂的模式。如果没有激活函数，神经网络中的每一层都只做线性变换，最终网络只会是多个线性变换的组合，相当于一个单一的线性模型，无法解决复杂的非线性问题。

非线性：激活函数将线性输出（加权和加偏置的输出）转化为非线性输出，使得神经网络可以拟合任意复杂的函数。
归一化：有些激活函数还具有将输出值限制在某个固定区间的效果（如 Sigmoid，将输出限制在 $(0, 1)$ 区间），这可以帮助模型稳定训练。

2. 常见的激活函数

a. Sigmoid 函数

Sigmoid 函数是深度学习中最早广泛使用的激活函数之一，它将输入值映射到 $(0, 1)$ 的区间，输出为一个概率值。其公式为：
$\sigma(x) = \frac{1}{1 + e^{-x}}$

特点：输出值在 $0$ 到 $1$ 之间，因此常用于二分类问题。
缺点：梯度消失问题，在输入值较大或较小时，Sigmoid 函数的梯度（导数）接近零，这会导致反向传播过程中梯度逐渐减小（消失），影响权重的更新，特别是在深层网络中。
图示：

b. Tanh 函数

Tanh（双曲正切函数）是 Sigmoid 的扩展版本，输出范围为 $(- 1, 1)$ ，可以解决 Sigmoid 在输出上的偏移问题。其公式为：
$\text{tanh}(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$

特点：输出范围为 $(- 1, 1)$ ，相比 Sigmoid 更加居中，能够减少偏移（mean shift）问题。
缺点：同样存在梯度消失问题，在输入值非常大或非常小时，Tanh 的梯度依然会变得很小。
图示：

c. ReLU（Rectified Linear Unit）函数

ReLU 是目前使用最为广泛的激活函数之一。ReLU 函数的输出在正数区域保持线性，在负数区域则为 0。其公式为：
$\text{ReLU}(x) = \max(0, x)$

特点：当输入大于 0 时，ReLU 直接输出输入值；当输入小于 0 时，输出为 0。
优点：
- 解决梯度消失问题：ReLU 的梯度为 1（当 $x > 0$ 时），不会像 Sigmoid 和 Tanh 那样使梯度变小，从而有效缓解梯度消失问题。
- 计算效率高：ReLU 计算非常简单，只需要一个最大值操作，非常适合在深层网络中使用。
缺点：死亡 ReLU 问题，当输入的值小于 0 时，ReLU 的输出一直为 0，这意味着神经元可能会永远不再激活，这在某些情况下会导致网络性能下降。
图示：

d. Leaky ReLU

Leaky ReLU 是对 ReLU 的一种改进，解决了 ReLU 在负数区域输出为 0 时神经元“死亡”的问题。Leaky ReLU 在负数区域给予一个很小的正数斜率 $\alpha$ （通常为 0.01）而不是完全为 0，其公式为：
$\text{Leaky ReLU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases}$

优点：在负数区域仍然保持一个小的斜率，使得神经元不完全失活。减少了 ReLU 函数中的死亡 ReLU 问题，确保神经元即使在负值输入时也能有一定的梯度更新。
图示：

e. ELU（Exponential Linear Unit）

ELU 是另一种改进的 ReLU 激活函数，在负数区域使用指数函数进行平滑。其公式为：
$\text{ELU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha(e^x - 1) & \text{if } x \leq 0 \end{cases}$
其中 $\alpha$ 是一个超参数，通常取值为 1。

特点：在正数区域与 ReLU 类似，但在负数区域使用指数函数进行平滑，避免了死亡 ReLU 问题。
优点：与 Leaky ReLU 相比，ELU 在负数区域提供的平滑曲线可以在一定程度上减少偏差。
缺点：计算量比 ReLU 稍大，因为负数区域的计算涉及指数运算。
图示：

f. Swish

Swish 是一种新的激活函数，由 Google 提出，它结合了 ReLU 和 Sigmoid 的优势。其公式为：
$\text{Swish}(x) = x \cdot \sigma(x) = x \cdot \frac{1}{1 + e^{-x}}$

特点：Swish 在小于 0 的输入值时逐渐趋近于 0，而在大于 0 时逐渐增大，因此它在负值区域不会像 ReLU 那样硬性截断。
优点：Swish 的非线性变化更加平滑，能够捕获更多的复杂模式，特别适合用于深度神经网络中。
缺点：计算量比 ReLU 更大，因为它涉及 Sigmoid 的计算。
图示：

3. 激活函数的选择

神经网络中的激活函数选择取决于具体任务和网络结构。以下是一些常见的经验法则：

ReLU 是目前最常用的激活函数，特别是在卷积神经网络（CNN）和全连接网络（FCN）中表现优异。对于大多数深度网络，ReLU 是一个很好的起点，因为它能有效避免梯度消失问题。
Leaky ReLU 和 ELU 是 ReLU 的改进版本，适合于有负输入的场景或避免神经元失活的场景。
Sigmoid 和 Tanh 适用于一些特殊情况，特别是在需要输出概率或对称输出的情况下（例如，输出为 $[- 1, 1]$ ）。不过它们通常会导致梯度消失，因此不推荐用于深层网络。
Swish 是一种更平滑的激活函数，在某些复杂任务（如超深网络）上可能表现优异。

4. 激活函数的数学属性

激活函数的选择不仅仅与模型的表现有关，还涉及其数学属性，如：

可微性：大多数常见的激活函数（如 Sigmoid、Tanh、ReLU 等）都是可微的，尽管 ReLU 在 $x = 0$ 处不可微，但通常在实际应用中表现良好。
导数值的大小：激活函数的导数决定了梯度传播时的效率。像 ReLU 这样导数为常数的函数不会引发梯度消失，而 Sigmoid 和 Tanh 由于导数较小，容易引发梯度消失问题。