【强化学习基础】强化学习的基本概念:状态、动作、智能体、策略、奖励、状态转移

news2025/6/12 19:11:22

文章目录

  • 1.状态(State)
  • 2.动作(Action)
  • 3.智能体(Agent)
  • 4.策略(Policy)
  • 5.奖励(Reward)
  • 6.状态转移(State transition)
  • 7.智能体与环境交互(Interacts with the environment)
  • 8.强化学习随机性的两个来源(Randomness in RL)
    • 8.1.动作具有随机性(Actions have randomness)
    • 8.2.状态转移具有随机性(State transition have randomness)

1.状态(State)

超级玛丽游戏中,观测到的这一帧画面就是一个 状态(State)
在这里插入图片描述

2.动作(Action)

玛丽做的动作:向左、向右、向上即为 动作(Action)
在这里插入图片描述

3.智能体(Agent)

动作是由谁做的,谁就是 智能体(Agent)。自动驾驶中,汽车就是智能体;机器人控制中,机器人就是智能体;超级玛丽游戏中,玛丽就是智能体。

4.策略(Policy)

策略( Policy π \pi π的含义就是,根据观测到的状态,做出动作的方案, π ( a ∣ s ) \pi(a|s) π(as) 的含义是在状态 s s s 是采取动作 a a a 的概率密度函数PDF。
在这里插入图片描述

5.奖励(Reward)

强化学习的目标就是尽可能的获得更多的 奖励(Reward)
在这里插入图片描述

6.状态转移(State transition)

当智能体做出一个动作,状态会发生变化(从旧的状态变成新的状态)。我们就可以说状态发生的转移。状态转移可以是确定的,也可以是随机的。
在这里插入图片描述
状态转移函数 p ( s ′ ∣ s , a ) p(s' | s, a) p(ss,a) 的公式:

p ( s ′ ∣ s , a ) = P ( S ′ = s ′ ∣ S = s , A = a ) p(s' | s, a)=\mathbb{P}(S' = s' | S=s, A=a) p(ss,a)=P(S=sS=s,A=a)

含义为: p ( s ′ ∣ s , a ) p(s' | s, a) p(ss,a) 表示在状态 s s s 时,采取动作 a a a ,跳转到新的状态 s ′ s' s 的概率。

7.智能体与环境交互(Interacts with the environment)

步骤一: 智能体观测到环境的状态 s t s_t st,然后做出动作 a t a_t at
在这里插入图片描述
步骤二: 由于智能体做出了动作 a t a_t at,环境的状态发生了变化,变成了 s t + 1 s_{t+1} st+1;同时由于智能体做出的动作 a t a_t at, 获得了一个奖励 r t r_t rt
在这里插入图片描述

8.强化学习随机性的两个来源(Randomness in RL)

8.1.动作具有随机性(Actions have randomness)

在这里插入图片描述

8.2.状态转移具有随机性(State transition have randomness)

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/104714.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

生成模型6-重参数技巧

Stochastic Back Propagation (Reparametrization Trick) 本章主要介绍的是,神经网络用函数逼近器,那么我们将想想神经网络和概率图模型之间有什么关系呢?能不能用NN去逼近一个概率分布呢?把他们两结合到一…

如今的测试行业都怎么了?面试题有必要出这么难吗?

在测试行业摸爬滚打了十年左右的我,时不时会被公司要求去做面试官面试别人。在这段期间我也收到了不少的简历,面试了各种技术不一的人。许多候选人的工作年限都不少,基本都是在3~5年左右,但他们做的都是一些非常传统的项目&#x…

VB知识点-学业水平考试

目录 一、VB中常用的几个基本控件 二、VB工程常识 三、VB常用的基本数据类型​编辑 四、VB常用的标准函数 五、VB的基本运算 六、VB语句 (1)符号常量定义语句 (2)变量定义语句 (3)赋值语句 &…

BAT大厂Python面试题精选,看完后离拿到offer只有一步之遥(含答案)

Python是目前编程领域最受欢迎的语言。在本文中,我将总结华为、阿里巴巴等互联网公司Python面试中最常见的30个问题。每道题都提供参考答案,希望能够帮助你在求职面试中脱颖而出,找到一份高薪工作。这些面试题涉及Python基础知识、Python编程…

AOP注解方式进行增强接口

📚目录📚简介:💨进阶版🗺️未实现AOP效果🎢创建注解:💭创建注解切面🚀使用方式:🎉结束:📚简介: 需要对AOP有一…

【电商】电商系统---供应商管理

本文以电商系统中的供应商管理为讨论对象,分析了其中的管理、属性、流程等内容,希望能给你带来启发与思考。 前言 前天写了一篇“以商品流转了解系统模块”介绍,里面啰里啰唆的说了很多模块,每个都是系统的组成部分,都…

数字化程度持续推进,元宇宙逐步走向成熟

元宇宙是人类数字化生存的最高形态 根据观研报告网发布的《2022年中国元宇宙行业分析报告-行业现状与发展趋势分析》显示,元宇宙是一个平行于现实世界,又独立于现实世界的虚拟空间,是映射现实世界的在线虚拟世界,是越来越真实的数…

美国访问学者签证材料清单

美国访问学者签证材料清单: 1、有效护照:如果您的护照将在距您预计抵美日期的六个月内过期、或已损坏、或护照上已无空白的签证签发页, 请在前来面谈之前先申请一本新护照。 2、一张照片:于6个月内拍摄的5 X5厘米正方形白色背景的彩色正面照。请将照片用…

【多聚焦图像:GAN:无监督】

MFF-GAN: An unsupervised generative adversarial network with adaptive and gradient joint constraints for multi-focus image fusion (MFF-GAN: 具有自适应和梯度联合约束的无监督生成对抗网络,用于多焦点图像融合) 从梯度的角度来进行…

【蓝桥杯】第12届Scratch国赛中级组第7题 -- 博士汪出题

[导读]:蓝桥杯大赛是工业和信息化部人才交流中心举办的全国性专业信息技术赛事。蓝桥杯大赛首席专家倪光南院士说:“蓝桥杯以考促学,塑造了领跑全国的人才培养选拨模式,并获得了行业的深度认可。” 春雷课堂计划推出Scratch蓝桥杯…

业务中台的架构案例

业务中台目标 目标: 整体目标:高内聚、低耦合,便于开发和维护。五个方向:性能、可用性、扩展性、伸缩性、安全性。 原因: 单体架构的大泥球会导致业务迭代困难、无法针对性伸缩、故障没有隔离等问题,需要向…

Python核心编程三大神兽——迭代器、生成器 、以及装饰器

装饰器 装饰器概述 装饰器本质:函数闭包的语法糖,一个函数,该函数用来处理其他函数,在不改变源函数的情况下添加功能,装饰器的返回值可以是一个函数对象 使用场景:插入日志,事务处理&#xf…

网心科技入选亿欧《2022年中国边缘计算产业研究报告》

近日,亿欧智库对外发布了《2022年中国边缘计算产业研究报告》,《报告》公布了“边缘计算产业图谱”和“行业新锐:中国边缘计算技术领先企业榜单”两项,网心科技(OneThing)均成功入选,彰显了网心科技在边缘计算领域的技术实力和市场领先地位。 当前,边缘计算与千行百业的深度融合…

51单片机实训day2——创建Keil工程

以管理员身份打开软件!!!以管理员身份打开软件!!!以管理员身份打开软件!!! 内 容:Keil工程创建 学 时:2学时 知识点:开发固件库介绍…

从英语翻译到人工智能:我如何用两年时间跨界转行

在这两年里,我经历了以下大大小小的里程碑: 2016 年初:在德国刚开始读英语语言学硕士没多久,萌生了转方向到计算机语言学(Computational Linguistics,后来我才知道那与自然语言处理 Natual Language Proces…

【树莓派不吃灰】兄弟连篇⑦ 日志管理

目录1.日志管理1.1 日志文件的功能和分类1.2 日志文件保存位置和文件介绍1.3 内核及系统日志1.4 日志消息的级别1.5 日志记录的一般格式1.6 用户日志分析1.6.1 users 查看能登录的用户1.6.2 who,w查看在线登录的用户1.6.3 last,lastb查看登录成功的用户和登录失败的用户1.7 日志…

为什么现在Python在量化交易中这么火?

前言 Python作为发展较快的编程语言,可以让程序员更加高效地工作和集成系统。Python的语法也是优先考虑了可读性,同时支持较少的代码行。 一般来说,Python语言是中低端量化交易平台最普遍的选择。中低端量化交易平台,支持复杂度…

40 CPP函数模板高级

#include "iostream" using namespace std; template <typename T1, typename T2> void func(T1 a, T2 b) {//其它代码??? tmp a b; //返回值该用什么呢?//其它代码 } void test() { } int main() {test();return 0; } 1 decltype关键字 在C中&#xf…

工控CTF之协议分析1——Modbus

协议分析 流量分析 主要以工控流量和恶意流量为主&#xff0c;难度较低的题目主要考察Wireshark使用和找规律&#xff0c;难度较高的题目主要考察协议定义和特征 简单只能简单得干篇一律&#xff0c;难可以难得五花八门 常见的工控协议有&#xff1a;Modbus、MMS、IEC60870、…

猿如意中的【Parrot-树莓派-5.0 arm64位 】工具框架的介绍详情

目录 一、工具名称 二、下载安装渠道 2.1 什么是猿如意&#xff1f; 2.2 如何下载猿如意&#xff1f; 三、工具介绍 四、Parrot-树莓派-5.0 arm64位功能介绍 五、软件安装过程 5.1 如何在猿如意中下载开发框架Parrot-树莓派-5.0 arm64位&#xff1f; 5.2 下载完成的Pa…