007_补充_ Pytorch 反向传播和Neural ODE的反向传播

news2026/2/16 4:11:37

一、Pytorch反向传播

首先是第一个小例子，训练模型拟合 y = true_w * x + true_b，模型的参数为 param_w, param_b

import torch

true_w = torch.Tensor([[2.0, 3.0], [4.0, 5.0]])  # 初始化真实的参数
true_b = torch.Tensor([[1.0, 2.0], [3.0, 4.0]])  # 默认情况下，创建的Tensor requires_grad=False

x = torch.ones(2, 2, requires_grad=False)  # 默认情况下, requires_grad=False, 创建出来的Tensor不会自动计算梯度
param_w = torch.ones(2, 2, requires_grad=True)  # 设置网络要训练的参数 w, b，初始值都为全1
param_b = torch.ones(2, 2, requires_grad=True)

true_y = true_w * x + true_b  # 计算真实应得到的y
predict_y = param_w * x + param_b  # 计算模型预测的y

loss = (true_y - predict_y).mean()  # L1损失

# 这里在backward之前，param_w param_b的grad都是空的，只有在backward之后grad才有值
loss.backward()
# 在backward之后，param_w param_b的grad输出为
# tensor([[-0.2500, -0.2500],
#         [-0.2500, -0.2500]])
# 具体的计算过程就是，这里loss求了平均，而矩阵中有四个数，也就是0.25
# 于是 param_w.grad = 0.25 * x
# 而 param_b.grad 虽然和 param_w.grad 相等，但是计算的过程不同
# param_b.grad = 0.25 * 1 同时要广播到与 param_b 同样的维度


# 如果要更新参数，通常用的是optimizer，里边的最基本的操作便是把要优化的参数减去梯度乘上损失率
loss_rate = 0.01
param_w = param_w - loss_rate * param_w.grad
param_b = param_b - loss_rate * param_b.grad

上面的代码就是一次反向传播并更新参数的过程。这个过程存在一个问题，之后再说。
关于pytorch的反向传播与自动求导，pytorch会对每个操作，存储其反向传播的方式，
比如对于上面的loss，输出之后是

tensor(4., grad_fn=<MeanBackward0>)

其中的MeanBackward就是指loss是计算的平均值，相应的要用平均值的反向传播方式与求导方式，也就是MeanBackward。

同样的道理，对于中间的predict_y其对应的反向传播和求导方式就是AddBackward。至于计算图这些内容不再赘述，很多文章讲的很详细。

那么以上的代码存在什么问题呢？对于只更新一次的做法没有任何问题，但是要训练多次的情况，比如在后边再复制几行

true_y = true_w * x + true_b  # 计算真实应得到的y
predict_y = param_w * x + param_b  # 计算模型预测的y
loss = (true_y - predict_y).mean()  # L1损失
loss.backward()

这个时候再输出param_w.grad和param_b.grad会得到：

tensor([[-0.5000, -0.5000],
        [-0.5000, -0.5000]])

相当于两次梯度值的累加，这就会导致之后的梯度值会越来越大，于是需要在第二次loss.backward()之前将梯度清空

用optimizer清空梯度直接用zero_grad，用手动更新的方法就需要手动设置

param_w.grad.data.zero_()
param_b.grad.data.zero_()

二、Neural ODE的反向传播

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/9640.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

007_补充_ Pytorch 反向传播和Neural ODE的反向传播

一、Pytorch反向传播

二、Neural ODE的反向传播

相关文章

linux安装jdk17

2023最新SSM计算机毕业设计选题大全（附源码+LW）之java校园二手商品交易系统p11v7

laravel对于数据量特别大的导出excel的提速方案

【毕业设计】大数据大众点评评论文本分析 - python 数据挖掘

java ssh校园拼餐系统

LTSPICE使用教程：二极管钳位电路仿真

【RocketMQ中生产者生产消息的高可用机制、消费者消费消息的高可用机制、消息的重试机制、死信队列于死信消息】

野火FPGA入门（5）

调优工具常用命令

机械专业学子的芯片封装仿真“逆袭之路”

小白学Java

一、react简介

什么是甘特图？什么是项目管理？

Revit中创建基于线的砌体墙及【快速砌体排砖】

多亏了这份大佬整理的Java进阶笔记，让我斩获7个offer

java.io.IOException: FIS_AUTH_ERROR in Android Firebase

测试行业3年经验，从大厂裸辞后，面试阿里、字节全都一面挂，被面试官说我的水平还不如应届生

精品基于ssm的足球联赛管理系统的设计与实现vue

记录一次服务器CPU负载高，利用率正常的处理方法

目标检测算法——YOLOv5/YOLOv7改进之结合SPD-Conv（低分辨率图像和小目标涨点明显）