【神经网络】正则化缓解过拟合-Dropout

news2025/12/20 8:28:01

文章目录

1、简介
2、Dropout 层的原理和使用
3、小结

🍃作者介绍：双非本科大三网络工程专业在读，阿里云专家博主，专注于Java领域学习，擅长web应用开发、数据结构和算法，初步涉猎人工智能和前端开发。
🦅个人主页：@逐梦苍穹
📕所属专栏：人工智能
🌻gitee地址：xzl的人工智能代码仓库
✈ 您的一键三连，是我创作的最大动力🌹

1、简介

在训深层练神经网络时，由于模型参数较多，在数据量不足的情况下，很容易过拟合。

回顾知识：欠拟合和过拟合-引入正则化：https://xzl-tech.blog.csdn.net/article/details/132799737

Dropout 就是在神经网络中一种缓解过拟合的方法。
实现：在每次训练过程中，以一定概率 p 随机将一部分神经元的输出设为0，这些被忽略的神经元在当前训练步骤中不参与计算。

其他正则化方法：

Elastic Net：结合了L1和L2正则化，适用于稀疏数据和多重共线性数据。
早停（Early Stopping）：在验证集上监控模型性能，当性能不再提升时停止训练。
数据增强（Data Augmentation）：通过对训练数据进行随机变换来增加数据量，从而提高模型的泛化能力。

2、Dropout 层的原理和使用

我们知道，缓解过拟合的方式就是降低模型的复杂度，而 Dropout 就是通过减少神经元之间的连接，把稠密的神经网络神经元连接，变成稀疏的神经元连接，从而达到降低网络复杂度的目的。
我们先通过一段代码观察下丢弃层的效果：

# -*- coding: utf-8 -*-
# @Author: CSDN@逐梦苍穹
# @Time: 2024/7/29 3:12

import torch  # 导入PyTorch库
import torch.nn as nn  # 导入PyTorch中的神经网络模块


def test():
    # 初始化丢弃层，丢弃概率为0.8
    dropout = nn.Dropout(p=0.8)
    # 初始化输入数据，随机生成5x8的整数矩阵，并转换为浮点数
    inputs = torch.randint(0, 10, size=[5, 8]).float()
    print("Inputs:")
    print(inputs)  # 打印输入数据
    print('-' * 50)

    # 通过丢弃层处理输入数据
    outputs = dropout(inputs)
    print("Outputs after Dropout:")
    print(outputs)  # 打印输出数据


if __name__ == '__main__':
    test()  # 调用测试函数

程序输出结果：

"C:\Program Files\Python39\python.exe" D:\Python\AI\神经网络\9-正则化Dropout\丢弃层.py 
Inputs:
tensor([[7., 9., 7., 2., 6., 1., 2., 9.],
        [1., 8., 4., 6., 1., 2., 5., 1.],
        [7., 5., 4., 8., 2., 9., 7., 2.],
        [0., 2., 9., 7., 8., 0., 7., 8.],
        [8., 3., 1., 0., 9., 3., 6., 6.]])
--------------------------------------------------
Outputs after Dropout:
tensor([[ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.],
        [ 5.,  0.,  0., 30.,  0.,  0.,  0.,  0.],
        [ 0.,  0.,  0., 40.,  0.,  0., 35.,  0.],
        [ 0., 10.,  0.,  0.,  0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.,  0.,  0., 30.,  0.]])

Process finished with exit code 0

我们将 Dropout 层的概率 p 设置为 0.8，此时经过 Dropout 层计算的张量中就出现了很多 0 , 概率 p 设置值越大，则张量中出现的 0 就越多。
上面结果的计算过程如下：

先按照 p 设置的概率，随机将部分的张量元素设置为 0
为了校正张量元素被设置为 0 带来的影响，需要对非 0 的元素进行缩放，其缩放因子为 $\frac{1}{(1 - p)}$ ，上面代码中 p 的值为 0.8，根据公式缩放因子为 $\frac{1}{(1 - 0.8)} = 5$
比如：第 3 个元素，原来是 5，乘以缩放因子之后变成 25。

我们也发现了，丢弃概率 p 的值越大，则缩放因子的值就越大，相对其他未被设置的元素就要更多的变大。
丢弃概率 P 的值越小，则缩放因子的值就越小，相对应其他未被置为 0 的元素就要有较小的变大。
当张量某些元素被设置为 0 时，对网络会带来什么影响？
比如上面这种情况，如果输入该样本，会使得某些参数无法更新，请看下面的代码：

# -*- coding: utf-8 -*-
# @Author: CSDN@逐梦苍穹
# @Time: 2024/7/29 3:18
import torch  # 导入PyTorch库
import torch.nn as nn  # 导入PyTorch中的神经网络模块

# 设置随机数种子
torch.manual_seed(0)

def caculate_gradient(x, w):
    # 前向计算 y = x @ w 并求和
    y = x @ w
    y = y.sum()
    # 反向传播计算梯度
    y.backward()
    # 打印梯度
    print('Gradient:', w.grad.reshape(1, -1).squeeze().numpy())

def test01():
    # 初始化权重
    w = torch.randn(15, 1, requires_grad=True)
    # 初始化输入数据
    x = torch.randint(0, 10, size=[5, 15]).float()
    # 计算梯度
    caculate_gradient(x, w)

def test02():
    # 初始化权重
    w = torch.randn(15, 1, requires_grad=True)
    # 初始化输入数据
    x = torch.randint(0, 10, size=[5, 15]).float()
    # 初始化丢弃层，丢弃概率为0.8
    dropout = nn.Dropout(p=0.8)
    # 应用丢弃层
    x = dropout(x)
    # 计算梯度
    caculate_gradient(x, w)

if __name__ == '__main__':
    test01()  # 调用不使用Dropout的测试函数
    print('-' * 70)
    test02()  # 调用使用Dropout的测试函数

程序输出结果:

"C:\Program Files\Python39\python.exe" D:\Python\AI\神经网络\9-正则化Dropout\张量为0对梯度的影响.py 
Gradient: [19. 15. 16. 13. 34. 23. 20. 22. 23. 26. 21. 29. 28. 22. 29.]
----------------------------------------------------------------------
Gradient: [ 5.  0. 35.  0.  0. 45. 40. 40.  0. 20. 25. 45. 55.  0. 10.]

Process finished with exit code 0

注意：