第一课 强化学习综述
1.强化学习要解决的问题
2.强化学习的发展历史
3.强化学习方法的分类
4.强化学习方法的发展趋势
5.环境搭建实验(Gym,TensorFlow等)
6.Gym环境的基本使用方法
7.TensorFlow基本使用方法
第二课 马尔科夫决策过程
1.基本概念:马尔科夫性、马尔科夫过程、马尔科夫决策过程
2.MDP基本元素:策略、回报、值函数、状态行为值函数
3.贝尔曼方程
4.最优策略
5.Python介绍及简单的代码演示
案例:构建机器人找金币和迷宫的环境
第三课 基于模型的动态规划方法
1.动态规划概念介绍
2.策略评估过程介绍
3.策略改进方法介绍
4.策略迭代和值迭代
5.值迭代与最优控制介绍
6.基于 python 的动态规划方法演示
案例:实现基于模型的强化学习算法
第四课 蒙特卡罗方法
1.蒙特卡罗策略评估方法
2.蒙特卡罗策略改进方法
3.基于蒙特卡罗的强化学习方法
4.同策略和异策略强化学习
5.重要性采样
6.基于 python 的蒙特卡罗强化学习方法演示
案例:利用蒙特卡罗方法实现机器人找金币和迷宫
第五课 时序差分方法
1.DP,MC 和TD方法比较
2.MC和TD方法偏差与方差平衡
3.同策略TD方法:Sarsa 方法
4.异策略TD方法:Q-learning 方法
5.N步预测及的前向和后向观点
案例:Q-learning和Sarsa的实现
第六课 基于值函数逼近方法
1.值函数的参数化表示
2.值函数的估计过程
3.神经网络基础讲解
4.DQN 方法介绍
5.DQN变种:Double DQN, Prioritized Replay, Dueling Network
案例:用DQN玩游戏——flappy bird
第七课 策略梯度方法
1.策略梯度方法介绍
2.似然率策略梯度推导及重要性采样视角推导
3.似然率策略梯度的直观理解
4.常见的策略表示
5.常见的减小方差的方法:引入基函数法,修改估计值函数法
案例:利用gym和tensorflow实现小车倒立摆系统,乒乓球游戏
第八课 TRPO方法介绍及推导
1.替代回报函数的构建
2.单调的改进策略
3.TRPO 实用算法介绍
4.共轭梯度法搜索可行方向
5.PPO方法
6.基于python的TRPO方法实现
案例:trpo算法和ppo算法实现
第九课 AC方法
1.随机策略与确定性策略比较
2.随机策略AC的方法
3.确定性策略梯度方法
4.DDPG 方法及实现
5.A3C方法讲解
案例:基于 python 的 DDPG 方法实现
第十课 逆向强化学习
1.基于最大边际的方法
2.学徒学习、MMP
3.结构化分类、神经逆向强化学习
4.基于概率模型的方法
5.最大熵、相对熵
6.深度逆向强化学习
案例:略