Dueling DQN 跑 Pendulum-v1

news2026/1/23 23:09:41

gym-0.26.1
Pendulum-v1
Dueling DQN

因为还是DQN,所以我们沿用double DQN,然后把 Qnet 换成 VAnet。
其他的不变，详情参考前一篇文章。

class VA(nn.Module):
    """只有一层隐藏层的A网络和V网络"""
    def __init__(self, state_dim, hidden_dim, action_dim):
        super().__init__()
        self.fc1 = nn.Linear(state_dim, hidden_dim)
        self.fc_A = nn.Linear(hidden_dim, action_dim)
        self.fc_V = nn.Linear(hidden_dim, 1)
    
    def forward(self, X):
        A = self.fc_A(F.relu(self.fc1(X)))
        V = self.fc_V(F.relu(self.fc1(X)))
        Q = V + A - A.mean(1).reshape(-1,1)
        return Q

action_dim = 11,和之前一样保持不变，然后看下结果。
运行结果如下:

相比于之前的DQN,学习更加稳定，return在总体上是比之前要高的。

同时q-value也是比之前要大。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1307939.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

配电房电力智能运维系统

配电房电力智能运维系统是一种采用先进的信息技术手段，对配电房的电力设备进行实时监控、数据分析和管理的系统。它能够提高电力设备的安全性和效率，降低运维成本，为用户提供更加优质、高效的电力服务。该系统依托智能运维工具-电易云&#…

Tomcat头上有个叉叉

问题原因： 这是因为它就是个空的tomcat,并没有导入项目运行解决方案： war模式：发布模式，正式发布时用，将WEB工程以war包的形式上传到服务器 war exploded模式：开发时用，将WEB工程的文件夹直接…

Python 自动化之修理PDF文件（二）

PDF文件_合并与拆分PDF文档Pro版本文章目录 PDF文件_合并与拆分PDF文档Pro版本前言一、要做成什么样子二、主要用到的函数三、基本思路1.引入库2.创建用户输入模块3.确定主框架四、文档合并代码模块1.用户输入和函数调用2.引导用户输入文档信息3.合并文档内容4.命名新文档生成…

大数据机器学习深度解读DBSCAN聚类算法：技术与实战全解析

大数据机器学习深度解读DBSCAN聚类算法：技术与实战全解析一、简介在机器学习的众多子领域中，聚类算法一直占据着不可忽视的地位。它们无需预先标注的数据，就能将数据集分组，组内元素相似度高，组间差异大。这种无监…

一、概述 1.1简介市场上存在非常多的日志框架。 JUL(java.util.logging),JCL(ApacheCommons Logging),Log4j,Log4j2,Logback、SLF4j、jboss-logging等。 Spring Booti在框架内容部使用JCL,spring-boot-starter--logging采用了slf4jlogback的形式，Spring Boot也能自…

算法笔记—链表、队列和栈

链表、队列和栈 1. 链表1.1 单链表反转1.2 双链表反转1.3 合并两个有序链表1.4 链表相加1.5 划分链表 2. 队列和栈2.1 循环队列2.2 栈实现队列2.3 队列实现栈2.4 最小栈2.2 双端队列 1. 链表 1.1 单链表反转力扣反转链表 // 反转单链表public ListNode reverseList(ListNod…

达索系统SOLIDWORKS 2024 Visualize新功能

SOLIDWORKS Visualize（原名为 Bunkspeed）是一整套独立的软件工具，Visualize模块主要是用于对SOLIDWORKS设计出的产品图进行渲染、做动画，方便用户更好的展示、宣传产品；以最快速、最轻松的方式创建专业的照片级图像、动…

〖大前端 - 基础入门三大核心之JS篇(53)〗- 构造函数与类

说明：该文属于大前端全栈架构白宝书专栏，目前阶段免费，如需要项目实战或者是体系化资源，文末名片加V！作者：哈哥撩编程，十余年工作经验, 从事过全栈研发、产品经理等工作，目前在公司…

【论文阅读笔记】M3Care: Learning with Missing Modalities in Multimodal Healthcare Data

本文介绍了一种名为“MCare”的模型，旨在处理多模态医疗保健数据中的缺失模态问题。这个模型是端到端的，能够补偿病人缺失模态的信息，以执行临床分析。MCare不是生成原始缺失数据，而是在潜在空间中估计缺失模态的任务相关信息&…

【知识积累】深度度量学习综述

原文指路：https://hav4ik.github.io/articles/deep-metric-learning-survey Problem Setting of Supervised Metric Learning 深度度量学习是一组旨在衡量数据样本之间相似性的技术。 Contrastive Approaches 对比方法的主要思想是设计一个损失函数，直…

STM32——震动传感器点亮LED灯

震动传感器简单介绍若产品不震动，模块上的 DO 口输出高电平； 若产品震动，模块上的 DO 口输出低电平，D0-LED绿色指示灯亮。震动传感器与STM32的接线编程实现需求：当震动传感器接收到震动信号时，使用中断…

Ubuntu 22安装PHP环境

参考博客为《练习 0（2/2）：Ubuntu 环境下安装PHP（PHP-FPM）》和《原生态Ubuntu部署LAMP环境 PHP8.1MySQLApache》 sudo apt-get install -y php7.4想要安装php7.4，发现安装的是php8.1。完成如下图&#xf…

构思3年，巨 TM 好用的 localStorage 封装！！！

localStorage 和 sessionStorage 作为一个本地存储方案，所有的操作都是同步的，用法也非常简单，所以深受广大前端的喜爱。但是由于 localStorage 只能存储字符串，所以存储其他数据就比较麻烦。比如我们要存储一个对象的话可能需要…

【程序人生】还记得当初自己为什么选择计算机？

✏️ 初识计算机： 还记得人生中第一次接触计算机编程是在高中，第一门编程语言是Python（很可惜由于条件限制的原因，当时没能坚持学下去......现在想来有点后悔，没能坚持，唉......）。但是&#xf…

STM32G030C8T6：使用外部晶振配置LED灯闪烁

本专栏记录STM32开发各个功能的详细过程，方便自己后续查看，当然也供正在入门STM32单片机的兄弟们参考； 本小节的目标是，使用STM32G030C8T6单片机，通过STM32CubeMX软件，配置并使用外部8MHz晶振，实…

python：五种算法（PSO、RFO、HHO、WOA、GWO）求解23个测试函数（python代码）

一、五种算法简介 1、粒子群优化算法PSO 2、红狐优化算法RFO 3、哈里斯鹰优化算法HHO 4、鲸鱼优化算法WOA 5、灰狼优化算法GWO 二、5种算法求解23个函数 （1）23个函数简介参考文献： [1] Yao X, Liu Y, Lin G M. Evolutionary program…

git自动更新功能

确认权限因为一般Linux系统网页用的www 或 www-data用户和用户组，所以要实现自动来去，首先要在www用户权限下生成ssh密钥，不然没有权限，其次就是，要把用root用户拉去的代码，批量改成www用户 1. 给www权…

Scrapy爬虫学习

Scrapy爬虫学习一 1 scrapy框架1.1 scrapy 是什么1.2 安装scrapy 2 scrapy的使用2.1创建scrapy项目2.2 创建爬虫文件2.3爬虫文件的介绍2.4 运行爬虫文件 3 爬取当当网前十页数据3.1 dang.py：爬虫的主文件3.2 items.py 定义数据结构3.3 pipelines.py 管道3.4 执行命令…

【教学类-06-16】20231213 （按比例抽题+乱序or先加再减后乘）X-Y之间“加法减法乘法+-×混合题”

作品展示： 背景需求： 大三班的“第一高手”对我提供的每一套的题目都只有一种反应： “这个是分合题，太简单了” “乘法，乘法我也会，11的1 22的4 33的9，,44十六……” “都太简单了&#xff0…

7个常见的jmeter压测问题

根据在之前的压测过程碰到的问题，今天稍微总结总结，以后方便自己查找。一、单台Mac进行压测时候，压测客户端Jmeter启动超过2000个线程，Jmeter报OOM错误，如何解决？ 解答：单台Mac配置内存为8G&…