一、强化学习引入

人的智能可以遗传获得也可以通过后天学习；学习有两种，模仿前人的经验是一种学习；如果没有前人的经验可以学习，就需要和环境进行交互，得到反馈来学习。

人工智能可以像人一样的模仿，就像监督学习，从给定的训练集中学习出一个函数，当新的数据到来时就可以利用这个函数预测结果。人工智能也可以像人一样自学，就像强化学习。如果环境是已知可以直接进行规划，如果环境是未知，就需要不断地探索与试错。

二、强化学习入门路线介绍

课程基础
- 数学基础
  - 高等数学
  - 线性代数（向量空间的变换思维）
  - 概率与数理统计（期望、方差）
- 编程基础
  - Python：numpy
  - Paddle
    - https://www.paddlepaddle.org.cn/documentation/docs/zh/guides/index_cn.html
资料推荐
- 书籍
  - 经典书：《Reinforcement Learning： An Introduction（强化学习导论）》（强化等习教父Aichard Sutton 的经典）
- 视频
  - 理论课：2015David Silver经典强化学习公开课、 UC Berkeley CS285、斯坦福 CS234
- 动手实践：Sarsa、Q-learning、DQN、Policy Gradient、DDPG（本次公开课实践内容）
- 进阶：经典论文
  - DQN.“Playing atari with deep reinforcement learning.” https://anxiv.org/pdf/1312.5602.pdf
  - A3C.“Asynchronous methods for deep reinforcement learning.” http://www.jmir.org/proceedings/papers/v48/mniha16.pdf
  - DDPG.“Continuous control with deep reinforcement learning.” https://anxiv.org/pdt/1509.02971
  - PPO.“Proximal policy optimization algorithms.” http://aniv.org/pdf/1707.06347
- 前沿研究方向：
  - Model-base RL. Hierarchical RL. Multi Agent RL. Meta Learning

三、什么是强化学习

核心思想：智能体 agent 在环境 environment 中学习，根据环境的状态 state，执行动作action，并根据环境的反馈 reward（奖励）来指导更好的动作。

智能体观察环境，然后对环境做出动作，收到来自环境的反馈。然后通过反馈和改变之后的环境状态做出下一次的动作，循环往复以上情况。

强化学习的特点
- 序列决策的过程，不断地和环境交互，观察和输出动作
- 延迟奖励

四、强化学习的应用

强化学习和其他机器学习的关系

监督学习（分类、回归）
非监督学习（聚类）

强化学习与监督学习的区别

监督学习（认知：是什么）
- 独立同分布
强化学习（决策：怎么做）
- 序列决策过程

Agent 学习的两种方案

基于价值 value-based
- 确定性策略
  - Sarsa
  - Q-learning
  - DQN
基于策略 policy-based
- 随机性策略
  - Policy gradient

RL 概览分类

RL常用算法库&框架库

在这里插入图片描述

RL 编程实践：GYM

Gym：仿真平台、python开源库、RL测试平台
官网：https://gym.openai.com/
离散控制场景：一般使用atari环境评估
连续控制场景：一般使用mujoco环境游戏来评估

RL agent <-> environment 交互接口

gym 的核心接口是 environment。提供以下几个核心方法

( 1 ) reset()：重置环境的状态，回到初始环境，方便开始下一次训练。

( 2 ) step(action)：推进一个时间步长，返回四个值：

① observation (object)：对环境的一次观察；

② reward (float)：奖励：

③done (boolean)：代表是否需要重置环境；

④ info (dict)：用于调试的诊段信息。

( 3 ) render()：重绘环境的一帧图像。

import gym

env = gym.make("CliffWalking-v0")
obs = env.reset()
while True:
  	action = np.random.randint(0,4) # 0-4 代表上下左右共四个动作，随机选一个
    obs,reward,done,info = env.setp(action)
    env.render()
    if done:
      	break

代码体验

代码路径

下载python 3.6（官网）
下载pip（命令行）
下载paddlepaddle（利用pip）
[下载gym](pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gym)
将上面代码路径的文件克隆下来

使用

命令行进入lesson1
命令行使用python命令

>>>import gym
>>>from gridworld import CliffWalkingWapper

>>>env = gym.make("CliffWalking-v0")
>>>env = CliffWalkingWapper(env) #创建悬崖环境
>>>env.reset()
36
>>>env.render()
>>>env.step(0) #向上走
(24, -1, False, {'prob': 1.0}) #第一个值为状态值，第二个值为reward，第三个值为一轮游戏有没有玩完，第四个字段是info，额外信息
>>>env.step(1) #向右走
>>>env.render()
>>>env.step(2) #向下走
>>>env.render() ##直到终点

自动寻找路径代码

import gym
import numpy as np

env = gym.make("CliffWalking-v0")
obs = env.reset()
while True:
  	action = np.random.randint(0,4)
    obs,reward,done,info = env.step(action)
    env.render()
    if done:
      	break

广告：PARL 对 agent 的框架抽象

本次课程的代码主要参考的强化学习算法框架库：PARL
官网：https://github.com/PaddlePaddle/PARL
特点：
- 代码可读性好、函数功能清晰
- 支持算法数量多种类全，可复现性好
- 模块之间糯合度低，内聚性强
- 【入门】快速学习和对比不同常用算法
- 【科研】科研人员快速复现论文结果，迁移算法到不同环境调研
- 【工业】大规模分布式能力，只需加两行代码：单机一多机训练，快速迭代上线

作业

pip install paddlepaddle==1.6.3 # -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install parl==1.3.1
pip install gym
git clone -depth=1 https://github.com/PaddlePaddle/PARL.git
cd PARL/examples/QuickStart
python train.py

Tips1： Pip库安装常见问题：网络超时
解决办法1：使用清华源 -i https://pypi.tuna.tsinghua.edu.cn/simple
解决办法2：https//pypi.org/ 下载whl包或者源码包安装
Tipsz： Pip安装中断：某个依赖包安装失败，重新安装即可
Tips3：独立的Python环境：Conda //能够将不同的python环境隔离开来

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/11447.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！