深度学习 —— 正则化批量归一化BN

news2026/4/28 22:34:20

正则化概念是什么机器学习/深度学习中防止模型过拟合/提高模型泛化能力的方法L1与L2正则化L1和L2正则化通过在损失函数上添加惩罚项来实现L1正则化在工程中通常引入软阈值操作权重小于某个值时强制为0深度学习中使用L1/L2 正则化的方式Adam/AdamW 中的权重衰减项实现L2正则化深度学习/神经网络中不会单独使用L1正则化梯度优化器对象。参数Dropout 正则化随机失活1. 概念训练时让神经元以概率p 随机失活输出强制为0并对保留的神经元进行1/(1-p)缩放相当于在训练不同的子网络。类比让部分对应上传让每个队员得到更充分的锻炼。测试时Droput 关闭不失活。使用完整网络进行预测。类比所有队员一起上场。是一种提高模型泛化能力的方法。2. Dropout 随机失活图示随机丢弃部分模型参数参数P 丢弃概率在训练深层神经网络时由于模型参数较多在数据量不足的情况下很容易过拟合。Dropout 随机失活是一个简单有效的正则化方法。3. 原理为什么对保留的神经元输出 1/(1-p) 的缩放保证训练过程中网络输出数据均值不变假设没有dropout时网络输出的激活值的均值为mean对应的激活值【x0,x1,...xn】p * n 个激活值为0有Dropout 之后的激活值的平均值是多少mean_dropout (mean * (n-p*n) 0*p*n)/n mean*(1-p)所以dropout 之后的保留神经元的输出要进行1/(1-p)缩放4. APInn.Dropout(p 0.1)参数p设置0 p 1 ,通常p 0.5 ,当模型参数较多时数据量较大时可以适当增加p比如0.4~0.55.什么时候用按这个图例输入 → Linear → 激活 →Dropout→ Linear → 激活 →Dropout→ Linear → Softmax 输出批量归一化 BNBatch Normailization应用在CV计算机视觉领域使用较多尤其CNN网络1. 概念批量归一化属于正则化方法缓解模型过拟合主要用于CV计算机视觉比如CNN网络中先标准化为均值0方差1的分布然后再进行重构(缩放平移缩放系数和平移系数都是可学习的)进一步提取特征。对每一个batch的数据进行标准化数据分布就变得稳定参数的梯度变化也变得稳定有助于加快模型的收敛。通过标准化每一层的输入使其均值接近0方差接近1从而加速训练并提高泛化能力。2. 公式λ和β是可学习的参数相当于对标准化后的值做了一个线性变换λ为系数β为偏置eps 通常指为 1e-5避免分母为 0E(x) 表示变量的均值Var(x) 表示变量的方差3. 模型训练中绝对顺序线性层 → BN 归一化 → 激活函数4. 涉及到的APICV计算机视觉领域① BatchNorm1d: 处理2D/3D数据主要用于处理文本数据/序列数据NCS②BatchNorm2d: 处理4D数据主要用于二维卷积神经网络Conv2d来处理图片数据NCHW,(N,C,H,W), N批次大小C通道数H高度W宽度③ BatchNorm3d: 处理5D数据主要用于三维卷积神经网络Conv3d,来处理高维的视觉数据比如医学图像卫星遥感视频接收形状为 NCDHW/NCTHW 的张量作为输入。5. 代码示例# 1.创建数据模拟NCHW图片数据 torch.randint(0,256,size(1,3,32,32)) # 1 一张图片 # 3 RGB 彩色图。 # 32 32 高度和宽度像素 x torch.randint(0,256,size(1,3,32,32)).to(dtypetorch.float32) print(f原始数据x:{x}, shape: {x.shape}) # 2.创建BatchNorm2d层 # running_mean (1 - momentum) * running_mean momentum * batch_mean # running_var (1 - momentum) * running_var momentum * batch_var bn nn.BatchNorm2d( num_features3, # 通道数C eps1e-05, # 极小值防止除零 momentum0.1, # 动量控制参数的更新 affineTrue, # 缩放参数和平移参数是否可学习 ) # 3.输入数据到BatchNorm2d层中 y bn(x) # (1,3,32,32) # 4.打印输出 print(f处理后的数据y:{y}, shape: {y.shape})和机器学习标准化类似。多了科学系λ和β

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2548263.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！