叶梓
  • 叶梓国内知名上市IT企业的资深技术专家,高级工程师
  • 擅长领域: 人工智能 大数据
  • 讲师报价: 面议
  • 常驻城市:上海市
  • 学员评价: 暂无评价 发表评价
  • 助理电话: 13006597891 QQ:2116768103 微信扫码加我好友
  • 在线咨询

强化学习

主讲老师:叶梓
发布时间:2021-05-21 14:54:00
课程详情:

第一课 强化学习综述

1.强化学习要解决的问题

2.强化学习的发展历史

3.强化学习方法的分类

4.强化学习方法的发展趋势

5.环境搭建实验(Gym,TensorFlow等)

6.Gym环境的基本使用方法

7.TensorFlow基本使用方法


第二课 马尔科夫决策过程

1.基本概念:马尔科夫性、马尔科夫过程、马尔科夫决策过程

2.MDP基本元素:策略、回报、值函数、状态行为值函数

3.贝尔曼方程

4.最优策略

5.Python介绍及简单的代码演示

案例:构建机器人找金币和迷宫的环境


第三课 基于模型的动态规划方法

1.动态规划概念介绍

2.策略评估过程介绍

3.策略改进方法介绍

4.策略迭代和值迭代

5.值迭代与最优控制介绍

6.基于 python 的动态规划方法演示

案例:实现基于模型的强化学习算法


第四课 蒙特卡罗方法

1.蒙特卡罗策略评估方法

2.蒙特卡罗策略改进方法

3.基于蒙特卡罗的强化学习方法

4.同策略和异策略强化学习

5.重要性采样

6.基于 python 的蒙特卡罗强化学习方法演示

案例:利用蒙特卡罗方法实现机器人找金币和迷宫


第五课 时序差分方法

1.DP,MC 和TD方法比较

2.MC和TD方法偏差与方差平衡

3.同策略TD方法:Sarsa 方法

4.异策略TD方法:Q-learning 方法

5.N步预测及的前向和后向观点

案例:Q-learning和Sarsa的实现


第六课 基于值函数逼近方法

1.值函数的参数化表示

2.值函数的估计过程

3.神经网络基础讲解

4.DQN 方法介绍

5.DQN变种:Double DQN, Prioritized Replay, Dueling Network

案例:用DQN玩游戏——flappy bird


第七课 策略梯度方法

1.策略梯度方法介绍

2.似然率策略梯度推导及重要性采样视角推导

3.似然率策略梯度的直观理解

4.常见的策略表示

5.常见的减小方差的方法:引入基函数法,修改估计值函数法

案例:利用gym和tensorflow实现小车倒立摆系统,乒乓球游戏


第八课 TRPO方法介绍及推导

1.替代回报函数的构建

2.单调的改进策略

3.TRPO 实用算法介绍

4.共轭梯度法搜索可行方向

5.PPO方法

6.基于python的TRPO方法实现

案例:trpo算法和ppo算法实现


第九课 AC方法

1.随机策略与确定性策略比较

2.随机策略AC的方法

3.确定性策略梯度方法

4.DDPG 方法及实现

5.A3C方法讲解

案例:基于 python 的 DDPG 方法实现


第十课 逆向强化学习

1.基于最大边际的方法

2.学徒学习、MMP

3.结构化分类、神经逆向强化学习

4.基于概率模型的方法

5.最大熵、相对熵

6.深度逆向强化学习

案例:略


授课见证
推荐讲师

马成功

Office超级实战派讲师,国内IPO排版第一人

讲师课酬: 面议

常驻城市:北京市

学员评价:

贾倩

注册形象设计师,国家二级企业培训师,国家二级人力资源管理师

讲师课酬: 面议

常驻城市:深圳市

学员评价:

郑惠芳

人力资源专家

讲师课酬: 面议

常驻城市:上海市

学员评价:

晏世乐

资深培训师,职业演说家,专业咨询顾问

讲师课酬: 面议

常驻城市:深圳市

学员评价:

文小林

实战人才培养应用专家

讲师课酬: 面议

常驻城市:深圳市

学员评价: