【强化学习论文合集】AAAI-2021 强化学习论文

news2025/7/13 14:22:07

强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
本专栏整理了近几年国际顶级会议中,涉及强化学习(Reinforcement Learning, RL)领域的论文。顶级会议包括但不限于:ICML、AAAI、IJCAI、NIPS、ICLR、AAMAS、CVPR、ICRA等。

在这里插入图片描述

今天给大家分享的是2021年人工智能AAAI会议(AAAI Conference on Artificial Intelligence, AAAI)中涉及“强化学习”主题的论文。AAAI旨在促进人工智能的研究和负责任的使用,AAAI还旨在增加公众对人工智能的了解,改善人工智能从业者的教学和培训,并为研究计划者和资助方提供关于当前人工智能发展的重要性和潜力以及未来方向的指导。

  • [1]. Towered Actor Critic For Handling Multiple Action Types In Reinforcement Learning For Drug Discovery.
  • [2]. Queue-Learning: A Reinforcement Learning Approach for Providing Quality of Service.
  • [3]. Content Masked Loss: Human-Like Brush Stroke Planning in a Reinforcement Learning Painting Agent.
  • [4]. DeepTrader: A Deep Reinforcement Learning Approach for Risk-Return Balanced Portfolio Management with Market Conditions Embedding.
  • [5]. Online 3D Bin Packing with Constrained Deep Reinforcement Learning.
  • [6]. DEAR: Deep Reinforcement Learning for Online Advertising Impression in Recommender Systems.
  • [7]. Visual Comfort Aware-Reinforcement Learning for Depth Adjustment of Stereoscopic 3D Images.
  • [8]. FontRL: Chinese Font Synthesis via Deep Reinforcement Learning.
  • [9]. Visual Tracking via Hierarchical Deep Reinforcement Learning.
  • [10]. Combining Reinforcement Learning and Constraint Programming for Combinatorial Optimization.
  • [11]. Reinforcement Learning with a Disentangled Universal Value Function for Item Recommendation.
  • [12]. A General Offline Reinforcement Learning Framework for Interactive Recommendation.
  • [13]. Hierarchical Reinforcement Learning for Integrated Recommendation.
  • [14]. Encoding Human Domain Knowledge to Warm Start Reinforcement Learning.
  • [15]. Reinforcement Learning of Sequential Price Mechanisms.
  • [16]. A Deep Reinforcement Learning Approach to First-Order Logic Theorem Proving.
  • [17]. The Value-Improvement Path: Towards Better Representations for Reinforcement Learning.
  • [18]. Reinforcement Learning with Trajectory Feedback.
  • [19]. Towards Effective Context for Meta-Reinforcement Learning: an Approach based on Contrastive Learning.
  • [20]. DeepSynth: Automata Synthesis for Automatic Task Segmentation in Deep Reinforcement Learning.
  • [21]. Learning with Safety Constraints: Sample Complexity of Reinforcement Learning for Constrained MDPs.
  • [22]. Reinforcement Learning Based Multi-Agent Resilient Control: From Deep Neural Networks to an Adaptive Law.
  • [23]. Learning to Reweight Imaginary Transitions for Model-Based Reinforcement Learning.
  • [24]. Temporal-Logic-Based Reward Shaping for Continuing Reinforcement Learning Tasks.
  • [25]. Metrics and Continuity in Reinforcement Learning.
  • [26]. Lipschitz Lifelong Reinforcement Learning.
  • [27]. Decentralized Policy Gradient Descent Ascent for Safe Multi-Agent Reinforcement Learning.
  • [28]. Exact Reduction of Huge Action Spaces in General Reinforcement Learning.
  • [29]. Scheduling of Time-Varying Workloads Using Reinforcement Learning.
  • [30]. Advice-Guided Reinforcement Learning in a non-Markovian Environment.
  • [31]. Distributional Reinforcement Learning via Moment Matching.
  • [32]. Inverse Reinforcement Learning From Like-Minded Teachers.
  • [33]. Robust Reinforcement Learning: A Case Study in Linear Quadratic Regulation.
  • [34]. Visual Transfer For Reinforcement Learning Via Wasserstein Domain Confusion.
  • [35]. Inverse Reinforcement Learning with Explicit Policy Estimates.
  • [36]. Self-Supervised Attention-Aware Reinforcement Learning.
  • [37]. Domain Adaptation In Reinforcement Learning Via Latent Unified State Representation.
  • [38]. Non-asymptotic Convergence of Adam-type Reinforcement Learning Algorithms under Markovian Sampling.
  • [39]. WCSAC: Worst-Case Soft Actor Critic for Safety-Constrained Reinforcement Learning.
  • [40]. Improving Sample Efficiency in Model-Free Reinforcement Learning from Images.
  • [41]. Sequential Generative Exploration Model for Partially Observable Reinforcement Learning.
  • [42]. Sample Efficient Reinforcement Learning with REINFORCE.
  • [43]. Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning.
  • [44]. Inverse Reinforcement Learning with Natural Language Goals.
  • [45]. Resilient Multi-Agent Reinforcement Learning with Adversarial Value Decomposition.
  • [46]. Coordination Between Individual Agents in Multi-Agent Reinforcement Learning.
  • [47]. GLIB: Efficient Exploration for Relational Model-Based Reinforcement Learning via Goal-Literal Babbling.
  • [48]. Synthesis of Search Heuristics for Temporal Planning via Reinforcement Learning.
  • [49]. Combining Reinforcement Learning with Lin-Kernighan-Helsgaun Algorithm for the Traveling Salesman Problem.
  • [50]. Adaptive Prior-Dependent Correction Enhanced Reinforcement Learning for Natural Language Generation.
  • [51]. Reinforcement Learning-based Product Delivery Frequency Control.
  • [52]. Multi-agent Reinforcement Learning for Decentralized Coalition Formation Games.
  • [53]. Robotic Manipulation with Reinforcement Learning, State Representation Learning, and Imitation Learning (Student Abstract).
  • [54]. Evaluating Meta-Reinforcement Learning through a HVAC Control Benchmark (Student Abstract).
  • [55]. Leveraging on Deep Reinforcement Learning for Autonomous Safe Decision-Making in Highway On-ramp Merging (Student Abstract).
  • [56]. Deep Reinforcement Learning for a Dictionary Based Compression Schema (Student Abstract).
  • [57]. Solving JumpIN’ Using Zero-Dependency Reinforcement Learning (Student Abstract).
  • [58]. Enhancing Context-Based Meta-Reinforcement Learning Algorithms via An Efficient Task Encoder (Student Abstract).
  • [59]. State-Wise Adaptive Discounting from Experience (SADE): A Novel Discounting Scheme for Reinforcement Learning (Student Abstract).
  • [60]. Exploration of Unknown Environments Using Deep Reinforcement Learning.
  • [61]. EasyRL: A Simple and Extensible Reinforcement Learning Framework.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/36528.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

九、【React基础】组件的生命周期

文章目录1、旧生命周期1.1、单组件生命周期1.1.1、生命周期1.1.1.1、初始化阶段:由 ReactDOM.render() 触发---初次渲染1.1.1.2、更新阶段:由组件内部 this.setSate() 或父组件重新render触发1.1.1.3、卸载组件:由 ReactDOM.unmountComponent…

流媒体传输 - RTP 荷载 H264

H264 码流结构 H264 码流是由很多 NAL Unit 组成,所有 NAL Unit 均存在一个八位数据的 NAL Unit Header ,这八位数据也充当此 RTP 有效负载格式的有效负载头。一个 NAL Unit Header 的语法如下: ---------------|0|1|2|3|4|5|6|7|--------|F|NRI| Type…

深分页Scroll

ES对from size是有限制的,from和size二者之和不能超过1W 原理: fromsize在ES查询数据的方式: 第一步现将用户指定的关键进行分词。 第二步将词汇去分词库中进行检索,得到多个文档的id。 第三步去各个分片中去拉取指定的数据。耗…

JUC总结-基础篇

juc是什么? JUC是java.util.concurrent包的简称,在Java5.0添加,目的就是为了更好的支持高并发任务。让开发者进行多线程编程时减少竞争条件和死锁的问题! juc脑图 juc总结 juc多数工具都是依赖volatile关键字保持可见性和禁止指…

ovs vxlan 时延和吞吐

设计云时到底要不要用vxlan,如果用vxlan到底要不要购买比较贵的smart nic做offload,采用软件vxlan还是硬件交换机vxlan,很难决策,这儿简单测试一下,给个参考,资源终究是有限的,成本还是有考虑的…

Flutter splash 屏幕

Flutter splash 屏幕 原文 https://medium.com/bedirhanssaglam/flutter-splash-screen-a8cafec52c8e 前言 启动画面通常被特别大的应用程序用来通知用户程序正在加载过程中。它们提供的反馈表明,一个漫长的过程正在进行中。有时,启动画面中的进度条会指…

【MYSQL】在线恢复主从复制方案

一、恢复前提 因复杂情况,从库无法从binlog中恢复主从复制关系,需要从备份文件中恢复。恢复过程的几个关键点为: 1、从库现有数据的清理。本方案采用覆盖的方式,导出时添加add-drop参数即可。还有一个方案是手动删除数据文件&…

1990-2021年全国各省外商直接投资水平

1990-2021年全国各省外商直接投资水平 1、包括全国30省,不含西藏 2、指标包括: 行政区划代码、长江经济带、年份、地区、经度、纬度、GDP(亿元)、外商直接投资(美元)(万美元)、人民币对美元汇率(美元1)(元)、外商直接投资(万元)、外商直接投资水平 3、…

第三章:CompletableFuture

Future接口复习FutureTask 实现类Future 编码的优缺点优点缺点get() 方法导致阻塞isDone() 轮询总结CompletableFutureCompletableFuture 为什么会出现?CompletableFuture 架构图CompletionStageCompletableFuture 四个静态方法CompletableFuture 减少阻塞和轮询注意…

Elasticsearch 8.4.1 配置自签名证书和启用Https

一、背景 某次安全扫描过程中,发现环境存在【SSL证书不可信】和【SSL自签名证书】漏洞;漏洞描述: 此服务的X.509证书链未由认可的证书颁发机构签名。如果远程主机是生产中的公共主机,这将取消SSL的使用,因为任何人都可…

干货分享:超级浏览器使用感受

在亚马逊做工艺品时间挺长的了,来说说我这几年使用超级浏览的感受。 现在做跨境的就跟做国内的电商平台一样卷了,不仅产品要新奇独特、要包邮价格还要有优势,可以说以前跨境电商是卖方市场,现在已经妥妥变成买方市场了。但这是国际…

python基础之模块与列表

文章目录一、模块模块名也是一个标识符二、列表高级变量类型:在python中,所有非数字型变量都支持以下特点:列表的定义:列表函数使用:关键字、函数和方法科普:列表的迭代 遍历:一、模块 模块是p…

一文了解 Go 中的指针和结构体

一文了解 Go 中的指针和结构体前言指针指针的定义获取和修改指针所指向变量的值结构体结构体定义结构体的创建方式小结耐心和持久胜过激烈和狂热。 前言 前面的两篇文章对 Go 语言的基础语法和基本数据类型以及几个复合数据类型进行介绍,本文将对 Go 里面的指针和结…

机器学习-(手推)线性回归-最小二乘法(矩阵表达)、几何意义

一、最小二乘法(矩阵表达)误差平均分散每个样本 如下数学推到过程(手推!!!): 数据介绍: D{(x1,y1),(x2,y2),......(xn,yn), Xi(P维列向量&…

行列向量的维数和个数的关系【三秩相等作为桥梁】

前置知识 1.列向量组维数增加时,向量组的极大无关组增加(或不变)。 2. 三秩相等 向量组证明 直观证明 这两个列向量显然是相关的。 这两个列向量当a和b取k和2k的时候相关(k为任意常数),当不是k和2k的时…

【2-Docker安装部署ElasticSearch和Kibanan详细步骤】

一.知识回顾 【0.ElasticSearch专栏在这里哟,想要学习的可自行进入专栏学习】 【1-ElasticSearch的基本介绍与用途、ElasticSearch中一些基本的概念、倒排索引的基本概念】 二.Docker安装部署ElasticSearch 2.1 docker pull 从镜像仓库中拉拉取ElasticSearch的镜像…

【零基础入门SpringMVC】第三期——请求域添加数据与视图

一、域对象共享数据 SpringMVC 中有哪些域对象? Request请求域,代表一次请求,从浏览器开启到关闭Session请求域,代表一次会话,从服务器开启到关闭【一次getSession获得了cookie,这个会话没关闭,…

Romantics三大浪漫(编译原理+操作系统+计算机图形学)

Romantics三大浪漫 一、编译原理1.1 研究翻译的科学1.2 编译器和解释器1.3 编译的流程(JIT为例)1.4 词法分析器1.5 多有限状态机提取Token- 实现词法分析器lexer1.6 实现流的peek和putBack操作一、编译原理 本章目标: 提升编程能力 区别于面向研究人员、学者的编译原理教学&a…

CSS学习笔记(三)

her~~llo,我是你们的好朋友Lyle,是名梦想成为计算机大佬的男人! 博客是为了记录自我的学习历程,加强记忆方便复习,如有不足之处还望多多包涵!非常欢迎大家的批评指正。 目录 一、CSS 的三大特性 1.1 层叠…

mybatis复习05,mybatis的缓存机制(一级缓存和二级缓存及第三方缓存)

mybatis复习05,mybatis的缓存机制(一级缓存和二级缓存)MyBatis的缓存机制MyBatis的一级缓存MyBatis的二级缓存二级缓存的相关配置MyBatis缓存查询的顺序整合第三方缓存EHCacheEHCache配置文件说明:MyBatis的缓存机制 MyBatis作为持久化框架&…