最优值函数二

news2025/7/24 2:25:28

一、扫地机器人的示例

        我们可以明确给出扫地机器人的Bellman最优方程。为了使问题更简洁,我们将状态高和低以及动作搜索、等待和充电分别缩写为h、l、s、w和re。由于只有两个状态,Bellman最优方程由两个方程组成。v∗(h)的方程可以写成:

按照前面相同的步骤,得到v∗(l)的方程为

对于任何选择的rs,rw,α,β和γ,其中0 ≤ γ < 1,0 ≤ α,β ≤ 1,存在恰好一对数字v∗(h)和v∗(l),同时满足这两个非线性方程。

二、Gridworld的示例

        假设我们解决了Bellman方程的v∗,对于在Gridworld中引入并再次在图1a中展示的简单网格任务。请记住,状态A后面跟着+10的奖励和到状态A0的转换,而状态B后面跟着+5的奖励和到状态B0的转换。图1b显示了最优值函数,图1c显示了相应的最优策略。在单元格中有多个箭头表示,任何相应的动作都是最佳的。

图1

        显式地解决Bellman最优性方程提供了一种找到最优策略的途径,从而解决了强化学习问题。然而,这个解决方案很少直接有用。它类似于一个全面的搜索,前瞻性地看待所有可能性,计算它们发生的概率以及它们在预期奖励方面的适宜性。这个解决方案依赖于至少三个在实践中很少成立的假设:(1) 我们准确地知道环境的动态;(2) 我们有足够的计算资源来完成计算的解决方案;(3)马尔可夫属性。对于我们感兴趣的任务类型,一个人通常不能准确地实现这种解决方案,因为这些假设的各种组合是不成立的。例如,虽然第一个和第三个假设对双陆棋游戏没有造成问题,但第二个假设是一个主要的障碍。由于游戏有大约1020个状态,因此在当今最快的计算机上解决v∗的Bellman方程将需要数千年的时间,同样的情况也适用于寻找q∗。在强化学习中,通常需要求助于近似解。

        许多不同的决策制定方法可以看作是近似求解Bellman最优方程的方法。例如,启发式搜索方法可以看作是将(3.17)的右侧展开几次,达到一定的深度,形成一个“树”的可能性,然后使用启发式评估函数来近似v∗的“叶子”节点。启发式搜索方法如A∗几乎总是基于离散情况。动态规划的方法与Bellman最优方程的关系更为密切。许多强化学习方法可以清楚地理解为近似求解Bellman最优方程,用实际的经验转移代替期望转移的知识。后续将考虑各种这样的方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1156929.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

飞鼠异地组网工具全网互通实战指南

飞鼠异地组网工具全网互通实战指南 一、飞鼠异地组网工具介绍1.1 飞鼠工具简介1.2 飞鼠工具官网 二、本次实践介绍2.1 本次实践前提2.2 本次实践简介2.3 本次实践环境规划 三、异地组网配置3.1 进入中心控制器节点管理后台3.2 网卡设置3.3 进入子网节点管理后台3.4 网卡设置 四…

EasyExcel动态复杂表头导出设置方法

目录 需求分析解决方案数据问题 需求分析 公司数据比较特殊有一部分数据需要动态修改导致信息导入时表头是不确定的&#xff0c;但其中又有一部分表头是固定的&#xff0c;如下图所示&#xff0c;如果表头全部是固定的话可以通过EasyExcel实体类的注解很轻松的解决&#xff0c…

解决CSS中height:100%失效的问题

出现BUG的场景&#xff0c;点击退出到登录页面&#xff0c;发现高度不对 上面出现了一种只是占了内容的高度&#xff0c;没有占满100%&#xff0c;为什么会出现这种情况呐&#xff1f; 让div的height"100%"&#xff0c;执行网页时&#xff0c;css先执行到&#xff0…

力扣刷题 day61:10-31

1.单词规律 给定一种规律 pattern 和一个字符串 s &#xff0c;判断 s 是否遵循相同的规律。 这里的 遵循 指完全匹配&#xff0c;例如&#xff0c; pattern 里的每个字母和字符串 s 中的每个非空单词之间存在着双向连接的对应规律。 方法一&#xff1a;双哈希表 #方法一&…

“碳”索未来,“汇”聚双碳

10月28日在广东省惠州市由汇林盛源低碳科技&#xff08;广东&#xff09;有限公司开办的2023汇林绿碳经济发展专题交流会取得圆满成功。 本次交流会基于我国在2030年达到碳达峰&#xff0c;2060年达到碳中和的目标&#xff0c;提出了汇林盛源公司在绿碳经济领域特有的优势与思考…

jeecg-uniapp 杂七杂八数据

uniapp 点击事件 tap: 单击事件 confirm: 回车事件 blur:失去焦点事件 touchstart: 触摸开始事件 touchmove: 触摸移动事件。 touchend: 触摸结束事件。 longpress: 长按事件。 input: 输入框内容变化事件。 change: 表单元素值变化事件。 submit: 表单提交事件。 scroll: 滚动…

Servlet的继承树,生命周期和线程不安全

1、Servlet 继承树 3)Servlet的继承树 - Servlet接口public interface Servlet{public void init(config);public void service(request,response);public void destroy();} - GenericServlet抽象类public abstract class GenericServlet implements Servlet{实现了init方法和d…

LiveMedia视频管理平台如何接入海康大华前端设备

LiveMedia视频管理平台支持对局域网内海康、大华、ONVIF设备及已经注册的GB28181前端&#xff0c;进行自动搜索&#xff0c;添加&#xff0c;简化添加流程。 接入海康大华设备示例 登陆视频中间件进入平台配置页面 点击上图设备管理&#xff0c;进入设备管理界面 点击设备发现…

J2EE项目部署与发布(Linux版本)

目录 一.jdk&tomcat安装 1.jdk的安装 1.2解压对应的安装包 1.3配置环境变量 2.tomcat的安装 二.mysql的安装 三.后端接口部署 后端部署 导入war包 修改端口 开启访问 一.jdk&tomcat安装 1.jdk的安装 登录VMware Workstation Pro 然后连接MobaXterm 将 jd…

ctfhub技能树web题目全解

Rce 文件包含 靶场环境 重点是这个代码&#xff0c;strpos&#xff0c;格式是这样的strpoc&#xff08;1&#xff0c;2&#xff0c;3&#xff09; 1是要搜索的字符串&#xff0c;必须有&#xff1b;2是要查询的字符串&#xff0c;必须有&#xff1b;3是在何处开始查询&#…

精明玩家的防骗攻略!绝地求生作图工具推荐!

亲爱的游戏玩家们&#xff0c;大家好&#xff01;在这个充满欢乐的游戏世界中&#xff0c;我们总是不可避免地会面临一些骗局和风险。为了保护自己的权益和游戏账号的安全&#xff0c;我们需要一些实用的方法和工具来帮助我们游戏更放心。 首先&#xff0c;防止被骗游戏账号黑名…

SpringBoot的核心配置:YAML概述、基础语法;JSR303数据校验;多环境切换

SpringBoot核心配置 SpringBoot配置文件分类 SpringBoot是基于约定的&#xff0c;所以很多配置都有默认值&#xff0c;但如果想使用自己的配置替换默认配置的话&#xff0c;就可以使用 application.properties或者application.yml&#xff08;application.yaml&#xff09;进…

“VVIC API:一键获取海量商品列表,根据关键词精准匹配,助力商家抢占市场先机!“

VVIC API接口可以根据关键词获取商品列表。以下是使用VVIC API接口获取商品列表的步骤&#xff1a; 确认VVIC API接口的请求地址和所需参数。根据接口文档中的说明设置请求参数&#xff0c;包括关键词和其他筛选条件。发送HTTP GET请求到API地址&#xff0c;即可得到对应的调用…

错误: 找不到或无法加载主类 回归java运行的本质

错误: 找不到或无法加载主类 回归java运行的本质 一&#xff0c;背景 当有了idea这种工具后&#xff0c;java的mian方法执行起来是如此简单&#xff0c;很少有人再手动编辑并通过命令行执行了。 同时&#xff0c;在当今Spring Boot盛行的今天&#xff0c;恐怕很少再有人执行j…

cmake多目录构建初步成功

目录和代码和 首次cmake 多目录构建失败 此文一样&#xff1b; 只有一个CMakeLists.txt&#xff1b; cmake_minimum_required(VERSION 3.10) project(mytest3 VERSION 1.0) include_directories("${PROJECT_SOURCE_DIR}/include") add_executable(mytest3 src/main…

二叉树问题——前/中/后/层遍历问题(递归与栈)

摘要 博文主要介绍二叉树的前/中/后/层遍历(递归与栈)方法 一、前/中/后/层遍历问题 144. 二叉树的前序遍历 145. 二叉树的后序遍历 94. 二叉树的中序遍历 102. 二叉树的层序遍历 103. 二叉树的锯齿形层序遍历 二、二叉树遍历递归解析 // 前序遍历递归LC144_二叉树的前…

[PHP]DBErp进销存系统 v1.1 RC 221101

DBErp系统&#xff0c;是北京珑大钜商科技有限公司 基于 Laminas doctrine 2 开发的一套进销存系统。 本系统运行环境要求&#xff1a; 服务器系统&#xff1a;Linux&#xff08;推荐&#xff09;、Unix、Windows Web服务软件&#xff1a;Apache&#xff08;推荐&#xff09;…

PO-sxmb_moni错误消息提示“在qRFC队列**中执行消息时出现短存储***

问题描述&#xff1a; 原因分析&#xff1a; 一般是abap dump或者标准错误、弹窗这类挂起操作导致接口代理程序执行不下去“存储”导致 解决方案&#xff1a; 1.SMQ1 SMQ2找到错误的队列&#xff0c;查看执行日志&#xff08;意义不大&#xff09;&#xff0c;点击解锁看看是…

NLP 快速入门

文章目录 前言NLP 历史回顾NLP任务语料的标注AI语料标注师岗位职责 TransformersHugging Face模型中文文本分类使用 NLTK 进行文本分类 参考链接开源NLP 前言 学习NLP&#xff0c;解决两个问题&#xff1a; 如何使用别人训练好的模型&#xff1f;如何基于别人的模型&#xff…

SpringMVC Day 09 : 异常处理

前言 在Web应用程序开发中&#xff0c;我们经常会遇到各种各样的错误和异常情况。那么如何有效地捕获和处理这些异常呢&#xff1f;本文将介绍Spring MVC中的异常处理机制&#xff0c;帮助您构建更稳定、可靠的Web应用程序。 一、前期准备 1、新建项目&#xff0c;结构如下 2…