深度强化学习理论与实践（9787302625544/095306-01） -文泉课堂

文泉课堂 - 年轻人的新知识课堂。

简介

本书比较全面、系统地介绍了深度强化学习的理论和算法，并配有大量的案例和编程实现。全书核心内容可以分为3部分，第一部分为经典强化学习，包括第2、3、4章，主要内容有动态规划法，蒙特卡洛法、时序差分法；第二部分为深度强化学习，包括第6、7、8章，主要内容有值函数近似法、策略梯度法、策略梯度法进阶；第三部分重点介绍了深度强化学习的经典应用——AlphaGo系列算法。另外，作为理论和算法的辅助，第1章介绍了强化学习的模型，第5章简单介绍了深度学习和PyTorch编程框架。

本书可以作为理工科大学相关专业研究生的学位课教材，也可以作为人工智能、机器学习相关专业高年级本科生的选修课教材，还可以作为相关领域学术研究人员、教师和工程技术人员的参考资料。

查看课程

课时列表

第课时 : 1.1节强化学习的简介
第课时 : 1.2节强化学习的模型
第课时 : 1.3节Gym介绍
第课时 : 2.2节值函数与贝尔曼方程
第课时 : 2.3节策略评估
第课时 : 0 介绍
第课时 : 2.5节最优值函数与最优策略
第课时 : 2.6节值迭代与策略迭代
第课时 : 2.7节动态规划法求解最优策略
第课时 : 2.4节策略改进
第课时 : 3.1节蒙特卡罗法简介
第课时 : 3.2节蒙特卡罗策略评估
第课时 : 3.3节蒙特卡罗强化学习
第课时 : 3.4节异策略蒙特卡罗法
第课时 : 4.1节时序差分策略评估
第课时 : 4.2节同策略时序差分强化学习
第课时 : 4.3节异策略时序差分强化学习
第课时 : 4.4节 n步时序差分强化学习
第课时 : 5.1节从感知机到神经网络
第课时 : 5.2节深度神经网络
第课时 : 5.3节激活函数、损失函数和数据预处理
第课时 : 5.4节 Pytorch深度学习软件包
第课时 : 6.2节神经网络值函数近似法
第课时 : 6.5节 DuelingDQN算法
第课时 : 6.1节线性值函数近似法
第课时 : 6.3节 DDQN算法
第课时 : 6.4节 PrioritizedReplayDQN
第课时 : 7.1节策略梯度算法的原理
第课时 : 7.2节策略梯度定理
第课时 : 7.4节演员-批评家策略梯度算法
第课时 : 8.1节 A3C
第课时 : 8.2节 DDPG
第课时 : 8.3节 PPO
第课时 : 7.3节蒙特卡罗策略梯度算法
第课时 : 2.1节动态规划简介
第课时 : 6-6
第课时 : 6-7
第课时 : 6-8
第课时 : 6-9
第课时 : 6-10
第课时 : 6-11
第课时 : 7-2
第课时 : 深度强化学习理论与实践源码
第课时 : 深度强化学习配套资源