【强化学习】近端策略优化算法(PPO)的理解

news2025/5/12 12:19:28

本篇博客参考自上海大学刘树林老师的课程。B站课程链接:https://www.bilibili.com/video/BV17t4geUEvQ/?spm_id_from=333.337.search-card.all.click&vd_source=74af336a587568c23a499122c8ffbbee

文章目录

  • 传统策略梯度训练面临的问题
  • 其他方法的改进
    • TRPO算法的贡献
    • PPO算法对TRPO的改进
    • PPO算法流程


传统策略梯度训练面临的问题

在这里插入图片描述

其他方法的改进

TRPO算法的贡献

传统方法容易出现策略网络不稳定的问题,基于这个问题,TRPO算法把两次策略 π \pi π的差异设置到一个很小的邻域内。简单说就是“小步、稳走、达到最优策略”。
在这里插入图片描述
下图展示了该优化方法的基本思想。目标函数是 J ( θ ) J(\theta) J(θ),该函数当前的参数是 θ n o w \theta_{now} θnow,该函数很难处理,具体参数/曲线也未知。在 θ n o w \theta_{now} θnow的邻域中,找一条更容易处理的、简单的曲线 L ( θ ∣ θ n o w ) L(\theta|\theta_{now}) L(θθnow)。函数 L ( θ ∣ θ n o w ) L(\theta|\theta_{now}) L(θθnow)和函数 J ( θ ) J(\theta) J(θ)是不一样的,但是在邻域 θ n o w \theta_{now} θnow内,函数 L ( θ ∣ θ n o w ) L(\theta|\theta_{now}) L(θθnow)是可以逼近函数 J ( θ ) J(\theta) J(θ)的。这个阈就被称作置信阈。在这个置信阈中,求曲线 L ( θ ∣ θ n o w ) L(\theta|\theta_{now}) L(θθnow)的最大值,把这个最大值对应的新参数 θ n o w \theta_{now} θnow作为下一个点继续求解。然后再求近似、求最大值…… TRPO借助了这个思想。
在这里插入图片描述
下式就是策略梯度定理, A π ( S , A ) A_{\pi}(S,A) Aπ(S,A)是优势函数。关键要解决两个问题:(1)要使得训练前后的两个策略可控;(2)旧策略收集的数据能够被策略网络多次应用以提升策略训练效果。
解决问题(1):对训练前后的两个策略施加约束;
解决问题(2):使用离轨策略。
在这里插入图片描述
下图展示了TRPO是如何解决这两个问题的。
(1)把原先的同轨策略改造成离轨策略。把现有的策略 π o l d \pi_{old} πold作为一个旧策略,让旧策略去取数据/和环境互动,把训练的策略 π n e w \pi_{new} πnew作为一个新策略。所以现在即有两个策略网络。把旧策略取到的数据 A π o l d ( S , A ) A_{\pi_{old}}(S,A) Aπold(S,A)来训练新策略,得到新策略的网络参数 θ n e w \theta_{new} θnew
(2)增加置信阈。利用KL散度进行约束。KL散度是衡量两个概率分布差异的非对称性指标。在信任域策略优化(TRPO)中,使用KL散度限制策略更新的幅度,确保新策略与旧策略的差异不超过阈值 δ \delta δ
在这里插入图片描述

PPO算法对TRPO的改进

用KL散度的目的是使得新策略和旧策略比较接近,但这样做比较麻烦。干脆取一个很小的 ϵ \epsilon ϵ,把新旧策略的比值控制在 [ 1 − ϵ , 1 + ϵ ] [1-\epsilon,1+\epsilon] [1ϵ,1+ϵ]之间。当比值超过上边界/下边界的时候,强行让比值等于对应的上下边界值。
在这里插入图片描述

PPO算法流程

在这里插入图片描述
第一模块:采集数据
第1步:将当前策略网络参数作为旧策略网络参数 θ o l d \theta_{old} θold
第2步:将初始状态 s 0 s_0 s0输入旧网络策略中,由于状态s和动作a均连续,策略网络采用随机高斯策略框架,策略网络的输出为动作a所服从正态分布的均值 μ o l d \mu_{old} μold和标准差 σ o l d \sigma_{old} σold,由此可以得到高斯分布策略函数 π o l d ( a ∣ s , θ o l d ) \pi_{old}(a|s,\theta_{old}) πold(as,θold),然后抽样选择动作: a 0 a_0 a0~ π o l d ( ⋅ ∣ s 0 , θ o l d ) \pi_{old}(·|s_0,\theta_{old}) πold(s0,θold),并与环境产生交互,环境给出相应的奖励 r 1 r_1 r1,同时状态更新为 s 1 s_1 s1,上述过程就产生了一个四元组 ( s 0 , a 0 , r 1 , s 1 ) (s_0,a_0,r_1,s_1) (s0,a0,r1,s1)。继续以上循环,可以得到多个四元组 ( s 0 , a 0 , r 1 , s 1 ) (s_0,a_0,r_1,s_1) (s0,a0,r1,s1) ( s 1 , a 1 , r 2 , s 2 ) (s_1,a_1,r_2,s_2) (s1,a1,r2,s2),…,将其储存在经验记忆库中,供训练使用

第二模块:计算状态价值函数和优势函数
第1步:从经验记忆库中按照时序依次取出四元组 ( s 0 , a 0 , r 1 , s 1 ) (s_0,a_0,r_1,s_1) (s0,a0,r1,s1) ( s 1 , a 1 , r 2 , s 2 ) (s_1,a_1,r_2,s_2) (s1,a1,r2,s2),…,将其依次输入价值网络中,计算
q 0 = V ( s 0 ; w ) 和 q 1 = V ( s 1 ; w ) , . . . q_0 = V(s_0;w) 和 q_1 = V(s_1;w),... q0=V(s0;w)q1=V(s1;w)...
第2步:计算TD目标
y 0 = r 1 + γ q 1 y_0=r_1+\gamma q_1 y0=r1+γq1
第3步:计算TD误差
δ 0 = q 0 − y 0 \delta_0=q_0-y_0 δ0=q0y0
第4步:计算优势函数 A t A_t At。优势函数 A t A_t At的引入是为了减小策略梯度中产生的方差,为了达到更好的效果,PPO-Clip算法采用了广义优势估计(GAE)近似优势函数 A t A_t At

如下图所示,A2C方法用的是下图中的 A t ( 1 ) A_t^{(1)} At(1)进行计算的,这样计算的偏差比较大。 A t ( k ) A_t^{(k)} At(k)类似于蒙特卡洛方法,但它的问题则是方差比较大。为了弥补两个方法的不足,干脆将 A t ( 1 ) A_t^{(1)} At(1) A t ( k ) A_t^{(k)} At(k)都算出来,分别求单步时序差分、两步、三步,…,再做平滑,这样就能弥补方差和偏差大的问题。这就是一种广义优势函数。
在这里插入图片描述
下图是广义优势估计的定义。这种再次加权,相当于对偏差和方差做出了平衡,这个效果比单用一个优势函数的效果要好得多。
在这里插入图片描述
第三模块:更新评估网络
第1步:计算评估网络(价值网络)的损失函数。这里用均方误差MSE(Mean Squared Error,MSE)来定义评估网络的损失函数,公式表示为针对任意时间步 t t t 时刻的预测值 V ( s t ; w ) V(s_t; w) V(st;w)与目标值 r t + 1 + γ V ( s t + 1 ; w ) r_{t+1}+ \gamma V(s_{t+1};w) rt+1+γV(st+1;w) 之间的差异。
L ( w ) = { V ( s t ; w ) − [ r t + 1 + γ V ( S t + 1 ; w ) ] } 2 L(w)= \{V(s_t; w)- [r_{t+1} + \gamma V(S_{t+1}; w)]\}^2 L(w)={V(st;w)[rt+1+γV(St+1;w)]}2
第2步:针对任意时间步时刻,计算损失函数梯度。
∇ w L ( w ) = 2 { V ( s t ; w ) − [ r t + 1 + γ V ( s t + 1 ; w ) ] } ∇ w V ( s t ; w ) = 2 δ t ∇ w V ( s t ; w ) \nabla_wL(w)=2\{V(s_t;w)-[r_{t+1} + \gamma V(s_{t+1};w)]\} \nabla_w V(s_t; w) = 2 \delta_t \nabla_w V(s_t;w) wL(w)=2{V(st;w)[rt+1+γV(st+1;w)]}wV(st;w)=2δtwV(st;w)
第3步:针对任意时间步t时刻,更新评估网络。
w ← w − 2 α δ t ∇ w ( s t ; w ) w←w-2\alpha \delta_t \nabla_w(s_t;w) ww2αδtw(st;w)
还可以采用小批量更新方法。

第四模块:更新策略网络
第1步:针对所有四元组 ( s , a , r , s ) (s,a,r,s) (s,a,r,s)中的 s s s a a a,分别由动作 a a a概率分布的均值 μ o l d \mu_{old} μold和标准差 σ o l d \sigma_{old} σold构造高斯分布旧策略函数(动作概率密度函数) π o l d ( a ∣ s , θ o l d ) \pi_{old}(a|s,\theta_{old}) πold(as,θold),并计算自然对数 l o g π o l d ( a ∣ s , θ o l d ) log \pi_{old}(a|s,\theta_{old}) logπold(as,θold)

第2步:针对本模块第1步计算出的每个 l o g π o l d ( a ∣ s , θ o l d ) log\pi_{old}(a|s,\theta_{old}) logπold(as,θold),依次单独训练当前网络。

(a)在每次训练中,将四元组 ( s t , a t , r t + 1 , s t + 1 ) (s_t,a_t,r_{t+1},s_{t+1}) (st,at,rt+1,st+1)中的 s t s_t st输入当前策略网络中由动作 a a a,概率分布的均值 μ n e w \mu_{new} μnew和标准差 σ o l d \sigma_{old} σold构造高斯分布新策略函数(动作概率密度函数) π n e w ( a t ∣ s t , θ n e w ) \pi_{new}(a_t|s_t, \theta_{new}) πnew(atst,θnew),并计算自然对数 l o g π n e w ( a t ∣ s t , θ n e w ) log\pi_{new}(a_t | s_t,\theta_{new}) logπnew(atst,θnew)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2327509.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

5.好事多磨 -- TCP网络连接Ⅱ

前言 第4章节通过回声服务示例讲解了TCP服务器端/客户端的实现方法。但这仅是从编程角度的学习,我们尚未详细讨论TCP的工作原理。因此,将详细讲解TCP中必要的理论知识,还将给出第4章节客户端问题的解决方案。 一、回声客户端完美实现 第4章…

【零基础入门unity游戏开发——2D篇】SpriteMask精灵遮罩组件

考虑到每个人基础可能不一样,且并不是所有人都有同时做2D、3D开发的需求,所以我把 【零基础入门unity游戏开发】 分为成了C#篇、unity通用篇、unity3D篇、unity2D篇。 【C#篇】:主要讲解C#的基础语法,包括变量、数据类型、运算符、…

PyTorch中卷积层torch.nn.Conv2d

在 PyTorch 中,卷积层主要由 torch.nn.Conv1d、torch.nn.Conv2d 和 torch.nn.Conv3d 实现,分别对应一维、二维和三维卷积操作。以下是详细说明: 1. 二维卷积 (Conv2d) - 最常用 import torch.nn as nn# 基本参数 conv nn.Conv2d(in_channe…

GO语言学习(16)Gin后端框架

目录 ☀️前言 1.什么是前端?什么是后端?🌀 2.Gin框架介绍 🌷 3.Gin框架的基本使用 -Hello,World例子🌷 🌿入门示例 - Hello,World 💻补充(一些常用的网…

RAG 在 AI 助手、法律分析、医学 NLP 领域的实战案例

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合信息检索和生成模型的技术,广泛应用于 AI 助手、法律分析、医学 NLP 等领域。 以下是具体的实战案例和技术实现。 1. AI 助手中的 RAG 应用 案例 1:企业…

大模型-提示词(Prompt)技巧

1、什么是提示词? 提示词(Prompt)是用户发送给大语言模型的问题、指令或请求,用来明确地告诉模型用户想要解决的问题或完成的任务,是大语言模型理解用户需求并据此生成相关、准确回答或内容的基础。对于大语言模型来说…

RNN模型与NLP应用——(9/9)Self-Attention(自注意力机制)

声明: 本文基于哔站博主【Shusenwang】的视频课程【RNN模型及NLP应用】,结合自身的理解所作,旨在帮助大家了解学习NLP自然语言处理基础知识。配合着视频课程学习效果更佳。 材料来源:【Shusenwang】的视频课程【RNN模型及NLP应用…

深度剖析:U盘打不开难题与应对之策

一、引言 在数字化办公与数据存储的浪潮中,U盘凭借其小巧便携、大容量存储等优势,成为了人们日常数据传输与备份的得力助手。然而,当我们急需调用U盘中的关键数据时,却常常遭遇U盘打不开的棘手状况。U盘打不开不仅会影响工作进度&…

uni-app 框架 调用蓝牙,获取 iBeacon 定位信标的数据,实现室内定位场景

背景:最近需要对接了一个 叫 iBeacon 定位信标 硬件设备,这个设备主要的作用是,在信号不好的地方,或者室内实现定位,准确的找到某个东西。就比如 地下停车场,商城里,我们想知道这个停车场的某个…

leetcode-热题100(3)

leetcode-74-搜索二维矩阵 矩阵最后一列升序排序,在最后一列中查找第一个大于等于target的元素 然后在该元素所在行进行二分查找 bool searchMatrix(int** matrix, int matrixSize, int* matrixColSize, int target) {int n matrixSize;int m matrixColSize[0];in…

基于python的电影数据分析及可视化系统

一、项目背景 随着电影行业的快速发展,电影数据日益丰富,如何有效地分析和可视化这些数据成为行业内的一个重要课题。本系统旨在利用Python编程语言,结合数据分析与可视化技术,为电影行业从业者、研究者及爱好者提供一个便捷的电…

[NCTF2019]Fake XML cookbook [XXE注入]

题目源代码 function doLogin(){var username $("#username").val();var password $("#password").val();if(username "" || password ""){alert("Please enter the username and password!");return;}var data "…

【学习记录】pytorch载入模型的部分参数

需要从PointNet网络框架中提取encoder部分的参数,然后赋予自己的模型。因此,需要从一个已有的.pth文件读取部分参数,加载到自定义模型上面。做了一些尝试,记录如下。 关于模型保存与载入 torch.save(): 使用Python的pickle实用程…

写Prompt的技巧和基本原则

一.基本原则 1.一定要描述清晰你需要大模型做的事情,不要模棱两可 2.告诉大模型需要它做什么,不需要做什么 改写前: 请帮我推荐一些电影 改写后: 请帮我推荐2025年新出的10部评分比较高的喜剧电影,不要问我个人喜好等其他问题&#xff…

水下成像机理分析

一般情况下, 水下环境泛指浸入到人工水体 (如水库、人工湖等)或自然水体(如海洋、河流、湖 泊、含水层等)中的区域。在水下环境中所拍摄 的图像由于普遍受到光照、波长、水中悬浮颗粒物 等因素的影响,导致生成的水下图像出现模糊、退 化、偏色等现象,图像…

JVM类加载器详解

文章目录 1.类与类加载器2.类加载器加载规则3.JVM 中内置的三个重要类加载器为什么 获取到 ClassLoader 为null就是 BootstrapClassLoader 加载的呢? 4.自定义类加载器什么时候需要自定义类加载器代码示例 5.双亲委派模式类与类加载器双亲委派模型双亲委派模型的执行…

从一到无穷大 #44:AWS Glue: Data integration + Catalog

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 本作品 (李兆龙 博文, 由 李兆龙 创作),由 李兆龙 确认,转载请注明版权。 文章目录 引言Glue的历史,设计原则与挑战Serverless ETL 功能设计Glue StudioGlue …

实战打靶集锦-35-GitRoot

文章目录 1. 主机发现2. 端口扫描3. 服务枚举4. 服务探查5. 系统提权6. 写在最后 靶机地址:https://download.vulnhub.com/gitroot/GitRoot.ova 1. 主机发现 目前只知道目标靶机在192.168.56.xx网段,通过如下的命令,看看这个网段上在线的主机…

英语口语 -- 常用 1368 词汇

英语口语 -- 常用 1368 词汇 介绍常用单词List1 (96 个)时间类气候类自然类植物类动物类昆虫类其他生物地点类 List2 (95 个)机构类声音类食品类餐饮类蔬菜类水果类食材类饮料类营养类疾病类房屋类家具类服装类首饰类化妆品类 Lis…

SpringBoot+Vue 中 WebSocket 的使用

WebSocket 是一种在单个 TCP 连接上进行全双工通信的协议,它使得客户端和服务器之间可以进行实时数据传输,打破了传统 HTTP 协议请求 - 响应模式的限制。 下面我会展示在 SpringBoot Vue 中,使用WebSocket进行前后端通信。 后端 1、引入 j…