“2021年暑期深度强化学习讨论班”是理学院组织的机器学习讨论班系列的第四期,前两期分别为“机器学习之监督学习”和“深度学习”。本次讨论班将从7月5号开始,为期10天。讨论班的主要内容是强化学习的理论、方法及其应用。我们将涉及强化学习的理论、算法以及基于python的编程实践。欢迎感兴趣的师生参加。
本次讨论班将线上线下同时进行,使用钉钉群进行线上直播。欢迎感兴趣的老师同学加钉钉群。
时间:7月5日—7月15日,上午9:00—11:30(理论课)
下午2:30—4:30(讨论课,编程实践课)
地点:线下:东九A528,线上:钉钉群
主讲老师:龙强、吴昌质(广州大学)、周韬(澳大利亚迪肯大学)、龙吟(计算机学院)、章胜(中国空气动力研究中心)
讨论班提纲:
第一章:强化学习的模型:马尔科夫决策过程
第二章:经典强化学习算法
1. 动态规划算法
2. 蒙特卡罗算法
3. 时序差分算法
第三章:深度学习
1. 从感知机到神经网络
2. 深度神经网络
3. 卷积神经网络
4. 循环神经网络
第四章:值函数近似算法
线性值函数近似法
神经网络值函数近似法
神经网络值函数近似法的改进
第五章:策略梯度算法
策略梯度算法的基本原理
蒙特卡罗策略梯度算法
演员-评论家策略梯度算法
A3C策略梯度法
深度确定性策略梯度算法
第六章:基于模型的算法
基于模型算法的基本原理
Dyna算法框架
基于模型的搜索
第七章:分布式深度强化学习算法(讨论)
第八章:多智能体深度强化学习算法(讨论)
第九章:多任务深度强化学习算法(讨论)
第十章:深度强化学习的典型案例
AlphaGo
AlphaZero