文泉课堂
- 年轻人的新知识课堂。
旗下网站
旗下产品
文泉考试
文泉题库
关注我们
文泉课堂公众号
课程
课程
登录
注册
登录
注册
深度强化学习理论与实践(9787302625544/095306-01)
第12课时: 3.1节 蒙特卡罗法简介
查看课程
课时列表
第2课时: 1.1节 强化学习的简介
第3课时: 1.2节强化学习的模型
第4课时: 1.3节Gym介绍
第6课时: 2.2节 值函数与贝尔曼方程
第7课时: 2.3节 策略评估
第1课时: 0 介绍
第9课时: 2.5节 最优值函数与最优策略
第10课时: 2.6节 值迭代与策略迭代
第11课时: 2.7节 动态规划法求解最优策略
第8课时: 2.4节 策略改进
第12课时: 3.1节 蒙特卡罗法简介
第13课时: 3.2节 蒙特卡罗策略评估
第14课时: 3.3节 蒙特卡罗强化学习
第15课时: 3.4节 异策略蒙特卡罗法
第16课时: 4.1节 时序差分策略评估
第17课时: 4.2节 同策略时序差分强化学习
第18课时: 4.3节 异策略时序差分强化学习
第19课时: 4.4节 n步时序差分强化学习
第20课时: 5.1节 从感知机到神经网络
第21课时: 5.2节 深度神经网络
第22课时: 5.3节 激活函数、损失函数和数据预处理
第23课时: 5.4节 Pytorch深度学习软件包
第25课时: 6.2节 神经网络值函数近似法
第28课时: 6.5节 DuelingDQN算法
第24课时: 6.1节 线性值函数近似法
第26课时: 6.3节 DDQN算法
第27课时: 6.4节 PrioritizedReplayDQN
第29课时: 7.1节 策略梯度算法的原理
第30课时: 7.2节 策略梯度定理
第32课时: 7.4节 演员-批评家策略梯度算法
第33课时: 8.1节 A3C
第34课时: 8.2节 DDPG
第35课时: 8.3节 PPO
第31课时: 7.3节 蒙特卡罗策略梯度算法
第5课时: 2.1节 动态规划简介
第36课时: 6-6
第37课时: 6-7
第38课时: 6-8
第39课时: 6-9
第40课时: 6-10
第41课时: 6-11
第42课时: 7-2
第43课时: 深度强化学习理论与实践源码
第44课时: 深度强化学习配套资源
学
习
中
心
TOP