强化学习

主讲老师：叶梓

课程领域：管理者技能提升培训课程

课程详情：

第一课强化学习综述

1.强化学习要解决的问题

2.强化学习的发展历史

3.强化学习方法的分类

4.强化学习方法的发展趋势

5.环境搭建实验（Gym，TensorFlow等）

6.Gym环境的基本使用方法

7.TensorFlow基本使用方法

第二课马尔科夫决策过程

1.基本概念：马尔科夫性、马尔科夫过程、马尔科夫决策过程

2.MDP基本元素:策略、回报、值函数、状态行为值函数

3.贝尔曼方程

4.最优策略

5.Python介绍及简单的代码演示

案例：构建机器人找金币和迷宫的环境

第三课基于模型的动态规划方法

1.动态规划概念介绍

2.策略评估过程介绍

3.策略改进方法介绍

4.策略迭代和值迭代

5.值迭代与最优控制介绍

6.基于 python 的动态规划方法演示

案例：实现基于模型的强化学习算法

第四课蒙特卡罗方法

1.蒙特卡罗策略评估方法

2.蒙特卡罗策略改进方法

3.基于蒙特卡罗的强化学习方法

4.同策略和异策略强化学习

5.重要性采样

6.基于 python 的蒙特卡罗强化学习方法演示

案例：利用蒙特卡罗方法实现机器人找金币和迷宫

第五课时序差分方法

1.DP，MC 和TD方法比较

2.MC和TD方法偏差与方差平衡

3.同策略TD方法：Sarsa 方法

4.异策略TD方法：Q-learning 方法

5.N步预测及的前向和后向观点

案例：Q-learning和Sarsa的实现

第六课基于值函数逼近方法

1.值函数的参数化表示

2.值函数的估计过程

3.神经网络基础讲解

4.DQN 方法介绍

5.DQN变种：Double DQN, Prioritized Replay, Dueling Network

案例：用DQN玩游戏——flappy bird

第七课策略梯度方法

1.策略梯度方法介绍

2.似然率策略梯度推导及重要性采样视角推导

3.似然率策略梯度的直观理解

4.常见的策略表示

5.常见的减小方差的方法:引入基函数法，修改估计值函数法

案例：利用gym和tensorflow实现小车倒立摆系统，乒乓球游戏

第八课 TRPO方法介绍及推导

1.替代回报函数的构建

2.单调的改进策略

3.TRPO 实用算法介绍

4.共轭梯度法搜索可行方向

5.PPO方法

6.基于python的TRPO方法实现

案例：trpo算法和ppo算法实现

第九课 AC方法

1.随机策略与确定性策略比较

2.随机策略AC的方法

3.确定性策略梯度方法

4.DDPG 方法及实现

5.A3C方法讲解

案例：基于 python 的 DDPG 方法实现

第十课逆向强化学习

1.基于最大边际的方法

2.学徒学习、MMP

3.结构化分类、神经逆向强化学习

4.基于概率模型的方法

5.最大熵、相对熵

6.深度逆向强化学习

案例：略

其他课程

强化学习: 培训课程

数据分析与数据挖掘: 培训课程

人工智能之最新自然语言处理技术与实战: 培训课程

人工智能与深度学习: 培训课程

人工智能自然语言处理: 培训课程

授课见证

叶梓还没有发布授课见证

推荐讲师

马成功

Office超级实战派讲师,国内IPO排版第一人

讲师课酬：面议

常驻城市：北京市

学员评价：

贾倩

注册形象设计师,国家二级企业培训师,国家二级人力资源管理师

讲师课酬：面议

常驻城市：深圳市

学员评价：

郑惠芳

人力资源专家

讲师课酬：面议

常驻城市：上海市

学员评价：

晏世乐

资深培训师,职业演说家,专业咨询顾问

讲师课酬：面议

常驻城市：深圳市

学员评价：

文小林

实战人才培养应用专家

讲师课酬：面议

常驻城市：深圳市

学员评价：