1 引言

在前面的文章中已经介绍了介绍了一系列激活函数 (Sigmoid、Tanh、ReLU、Leaky ReLU、PReLU、Swish、ELU、SELU、GELU、Softmax、Softplus、Mish、Maxout、HardSigmoid、HardTanh、Hardswish、HardShrink、SoftShrink、TanhShrink、RReLU、CELU、ReLU6、GLU、SwiGLU、GTU、Bilinear、ReGLU、GEGLU、Softmin、Softmax2d、Logsoftmax、Identity、LogSigmoid、Bent Identity、Absolute、Bipolar、Bipolar Sigmoid、Sinusoid、Cosine、Arcsinh、Arccosh、Arctanh、LeCun Tanh、TanhExp、Gaussian 、GCU、ASU、SQU、NCU、DSU、SSU、SReLU、BReLU、PELU、Phish、RBF、SQ-RBF、ISRU、ISRLU、SQNL、PLU、APL、Inverse Cubic、Soft Exponential、ParametricLinear、Piecewise Linear Unit、CLL)。在这篇文章中，会接着上文提到的众多激活函数继续进行介绍，给大家带来更多不常见的激活函数的介绍。这里放一张激活函数的机理图：
在这里插入图片描述

2 激活函数

2.1 SquaredReLU激活函数

论文链接：So, David, Wojciech Mańke, Hanxiao Liu, Zihang Dai, Noam Shazeer, and Quoc V. Le. “Searching for Efficient Transformers for Language Modeling.” Advances in Neural Information Processing Systems 34 (2021): 6010-6022.

SquaredReLU（平方线性整流单元）激活函数是一种非线性激活函数，是对传统 ReLU 激活函数的变体之一。它在输入为负值时执行类似 ReLU 的截断操作，并将正值部分取平方。这种激活函数在一些深度学习模型中用于增加非线性性能和防止梯度消失问题。其数学表达式和数学图像分别如下所示：
$f(x)=\begin{cases} x^2, & \text{if } x \geq 0 \\ 0, & \text{if } x < 0 \\ \end{cases}$ 在这里插入图片描述
优点：

增加非线性性： 平方线性整流单元引入了平方操作，使得输出在正值区间具有更强的非线性性能，有助于模型学习更复杂的特征。
避免梯度消失： 类似于 ReLU，平方线性整流单元在正值区间保持梯度不为零，从而有助于防止梯度消失问题。
适用于稀疏输入： 平方线性整流单元对于输入中的稀疏性较强的情况可能表现得更好。

缺点：

不适用于负值： 与 ReLU 类似，平方线性整流单元在负值区间输出恒定为零，这可能导致信息丢失。
可能出现梯度爆炸： 在正值区间，平方线性整流单元的梯度是 2x，在 x 较大时，可能导致梯度爆炸问题。
不适用于所有任务： 平方线性整流单元的设计主要针对特定的问题，可能在某些任务中表现不佳。

总体来说，平方线性整流单元是一种尝试增加非线性性能和避免梯度消失问题的激活函数。但是其存在的梯度爆炸导致当前很少使用。。。。

2.2 ModReLU激活函数

论文链接：Arjovsky, Martin, Amar Shah, and Yoshua Bengio. “Unitary evolution recurrent neural networks.” In International conference on machine learning, pp. 1120-1128. PMLR, 2016.

ModReLU（Modified Rectified Linear Unit）是一种激活函数，它是对传统的ReLU（Rectified Linear Unit）的一种改进和扩展。ReLU是一种常用的激活函数，它在输入大于零时输出与输入相等，在输入小于等于零时输出为零。而ModReLU试图通过在输入小于某个阈值时引入一个非线性斜率来增加模型的表达能力。其数学表达式和数学图像分别如下所示：
$f(x)=\begin{cases} (|x|+b)* \frac{x}{|x|}, & \text{if } |x|+b \geq 0 \\ 0, & \text{if } |x|+b \leq 0 \\ \end{cases}$ 在这里插入图片描述

优点：

非线性缩放：在输入小于零时，激活函数通过乘以 $\frac{x}{|x|}$ 来引入非线性，这使得模型在输入小于零时仍然具有梯度。这有助于解决传统ReLU在这种情况下可能出现的梯度消失问题。
连续可微性：这个激活函数在大部分区域都是连续可微的，这对于基于梯度的优化算法（如反向传播）是有利的。
对抗异常值：当输入的绝对值小于 b 时，输出为零。这种行为可以在一定程度上对抗异常值的影响，使模型对异常值更具有鲁棒性。