强化学习路线

强化学习(Reinforcement learning)

概括性的总结一些强化学习方面的重点知识(并不做详细讲解)

1 强化学习基础

  1. 理解马尔科夫性与马尔可夫过程

  2. 理解马尔科古决策过程:考虑动作与奖励

  3. 掌握累计回报GtG_{t} 的定义

  4. 理解智能体与环境交互的过程

  5. 状态值函数和状态行为值函数以及对应的贝尔曼方程,理解马尔可夫决策过程是个树状模型

2 基于模型的动态规划方法

强化学习的目标是找到最优策略 π\pi 使得累计回报的期望最大。策略指的是状态到动作的映射 π\pi​​ : S → A 。因此广义上,强化学习可以归结为序贯决策问题:即找到一个决策序列,使得目标函数最优。根据状态转移概率是否已知,可以分为基于模型的强化学习方法与无模型的强化学习方法。

用动态规划的方法解决问题时需要满足两个条件:

  1. 整个优化问题可以分解为多个子优化问题
  2. 子优化问题的解可以被存储和重复利用

需要掌握的内容包括:

  1. 利用贝尔曼最优性原理得到状态值函数和状态行为值函数的贝尔曼最优方程
  2. 对于模型已知的RL问题,求解状态值函数的方程中唯一的未知数是值函数,其未知数的总数为状态的总数,可以使用高斯赛德尔迭代法求解。
  3. 策略评估算法与策略改善的具体执行流程
  4. 策略迭代算法与值函数迭代算法的区别。

3 基于蒙特卡洛的强化学习方法

  1. 掌握蒙特卡罗方法的思想:产生大量的实验数据,采用平均值代替期望的方式估计值函数。如何取得充足的经验则是无模型强化学习的核心所在。

  2. 蒙特卡罗方法策略改善的方法(最大化动作值函数)以及递增计算均值的方法

  3. on-policy 与 off-policy的区别以及算法流程

  4. 学会利用重要性采样来评估off-policy目标策略的值函数

  5. 拒绝采样和MCMC方法,了解即可

4 基于时间差分的强化学习方法

  1. 基于时序差分的强化学习方法,结合了蒙特卡罗方法的采样方法以及动态规划算法的自举算法得出TD目标,TD target利用DP自举算法估计值函数
  2. q learning和sarsa算法的执行流程

5 基于值函数逼近的强化学习方法

  1. 值函数逼近型强化学习与表格型强化学习的异同点
  2. 掌握增量式学习方法(随机梯度下降)与批学习方法(批量梯度下降)
  3. 掌握DQN算法以及执行流程
  4. 理解DQN算法和相关的优化方法。
    1. 固定q目标
    2. ddqn算法
    3. deul dqn算法
    4. 优先回放
  5. 了解一下非参数与参数的函数逼近方法以及神经网络相关知识(常见网络结构、反向传播)