【强化学习论文合集】AAAI-2021 强化学习论文

news2025/9/20 22:13:25

强化学习（Reinforcement Learning, RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
本专栏整理了近几年国际顶级会议中，涉及强化学习（Reinforcement Learning, RL）领域的论文。顶级会议包括但不限于：ICML、AAAI、IJCAI、NIPS、ICLR、AAMAS、CVPR、ICRA等。

在这里插入图片描述

今天给大家分享的是2021年人工智能AAAI会议（AAAI Conference on Artificial Intelligence, AAAI）中涉及“强化学习”主题的论文。AAAI旨在促进人工智能的研究和负责任的使用，AAAI还旨在增加公众对人工智能的了解，改善人工智能从业者的教学和培训，并为研究计划者和资助方提供关于当前人工智能发展的重要性和潜力以及未来方向的指导。

[1]. Towered Actor Critic For Handling Multiple Action Types In Reinforcement Learning For Drug Discovery.
[2]. Queue-Learning: A Reinforcement Learning Approach for Providing Quality of Service.
[3]. Content Masked Loss: Human-Like Brush Stroke Planning in a Reinforcement Learning Painting Agent.
[4]. DeepTrader: A Deep Reinforcement Learning Approach for Risk-Return Balanced Portfolio Management with Market Conditions Embedding.
[5]. Online 3D Bin Packing with Constrained Deep Reinforcement Learning.
[6]. DEAR: Deep Reinforcement Learning for Online Advertising Impression in Recommender Systems.
[7]. Visual Comfort Aware-Reinforcement Learning for Depth Adjustment of Stereoscopic 3D Images.
[8]. FontRL: Chinese Font Synthesis via Deep Reinforcement Learning.
[9]. Visual Tracking via Hierarchical Deep Reinforcement Learning.
[10]. Combining Reinforcement Learning and Constraint Programming for Combinatorial Optimization.
[11]. Reinforcement Learning with a Disentangled Universal Value Function for Item Recommendation.
[12]. A General Offline Reinforcement Learning Framework for Interactive Recommendation.
[13]. Hierarchical Reinforcement Learning for Integrated Recommendation.
[14]. Encoding Human Domain Knowledge to Warm Start Reinforcement Learning.
[15]. Reinforcement Learning of Sequential Price Mechanisms.
[16]. A Deep Reinforcement Learning Approach to First-Order Logic Theorem Proving.
[17]. The Value-Improvement Path: Towards Better Representations for Reinforcement Learning.
[18]. Reinforcement Learning with Trajectory Feedback.
[19]. Towards Effective Context for Meta-Reinforcement Learning: an Approach based on Contrastive Learning.
[20]. DeepSynth: Automata Synthesis for Automatic Task Segmentation in Deep Reinforcement Learning.
[21]. Learning with Safety Constraints: Sample Complexity of Reinforcement Learning for Constrained MDPs.
[22]. Reinforcement Learning Based Multi-Agent Resilient Control: From Deep Neural Networks to an Adaptive Law.
[23]. Learning to Reweight Imaginary Transitions for Model-Based Reinforcement Learning.
[24]. Temporal-Logic-Based Reward Shaping for Continuing Reinforcement Learning Tasks.
[25]. Metrics and Continuity in Reinforcement Learning.
[26]. Lipschitz Lifelong Reinforcement Learning.
[27]. Decentralized Policy Gradient Descent Ascent for Safe Multi-Agent Reinforcement Learning.
[28]. Exact Reduction of Huge Action Spaces in General Reinforcement Learning.
[29]. Scheduling of Time-Varying Workloads Using Reinforcement Learning.
[30]. Advice-Guided Reinforcement Learning in a non-Markovian Environment.
[31]. Distributional Reinforcement Learning via Moment Matching.
[32]. Inverse Reinforcement Learning From Like-Minded Teachers.
[33]. Robust Reinforcement Learning: A Case Study in Linear Quadratic Regulation.
[34]. Visual Transfer For Reinforcement Learning Via Wasserstein Domain Confusion.
[35]. Inverse Reinforcement Learning with Explicit Policy Estimates.
[36]. Self-Supervised Attention-Aware Reinforcement Learning.
[37]. Domain Adaptation In Reinforcement Learning Via Latent Unified State Representation.
[38]. Non-asymptotic Convergence of Adam-type Reinforcement Learning Algorithms under Markovian Sampling.
[39]. WCSAC: Worst-Case Soft Actor Critic for Safety-Constrained Reinforcement Learning.
[40]. Improving Sample Efficiency in Model-Free Reinforcement Learning from Images.
[41]. Sequential Generative Exploration Model for Partially Observable Reinforcement Learning.
[42]. Sample Efficient Reinforcement Learning with REINFORCE.
[43]. Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning.
[44]. Inverse Reinforcement Learning with Natural Language Goals.
[45]. Resilient Multi-Agent Reinforcement Learning with Adversarial Value Decomposition.
[46]. Coordination Between Individual Agents in Multi-Agent Reinforcement Learning.
[47]. GLIB: Efficient Exploration for Relational Model-Based Reinforcement Learning via Goal-Literal Babbling.
[48]. Synthesis of Search Heuristics for Temporal Planning via Reinforcement Learning.
[49]. Combining Reinforcement Learning with Lin-Kernighan-Helsgaun Algorithm for the Traveling Salesman Problem.
[50]. Adaptive Prior-Dependent Correction Enhanced Reinforcement Learning for Natural Language Generation.
[51]. Reinforcement Learning-based Product Delivery Frequency Control.
[52]. Multi-agent Reinforcement Learning for Decentralized Coalition Formation Games.
[53]. Robotic Manipulation with Reinforcement Learning, State Representation Learning, and Imitation Learning (Student Abstract).
[54]. Evaluating Meta-Reinforcement Learning through a HVAC Control Benchmark (Student Abstract).
[55]. Leveraging on Deep Reinforcement Learning for Autonomous Safe Decision-Making in Highway On-ramp Merging (Student Abstract).
[56]. Deep Reinforcement Learning for a Dictionary Based Compression Schema (Student Abstract).
[57]. Solving JumpIN’ Using Zero-Dependency Reinforcement Learning (Student Abstract).
[58]. Enhancing Context-Based Meta-Reinforcement Learning Algorithms via An Efficient Task Encoder (Student Abstract).
[59]. State-Wise Adaptive Discounting from Experience (SADE): A Novel Discounting Scheme for Reinforcement Learning (Student Abstract).
[60]. Exploration of Unknown Environments Using Deep Reinforcement Learning.
[61]. EasyRL: A Simple and Extensible Reinforcement Learning Framework.