自动驾驶小白说

📃论文辅导

⭐面试辅导

🌐全平台账号

Ctrl+K

🔥 火热报名中

端到端-理论与实战视频课程

☄️ 端到端

端到端-理论与实战视频课程

端到端论文解读

📡 感知

感知论文解读

🎯 决策规划

动手学运动规划

动手学行为决策

强化学习入门笔记

🔭 轨迹预测

动手学轨迹预测

轨迹预测论文解读

🏎️ Apollo

动手学Apollo

🦋 控制理论

动手学控制理论

强化学习入门笔记

category

type

status

slug

date

summary

tags

password

icon

本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.

课程视频网址：https://space.bilibili.com/2044042934

第一章基本概念

1.1 基本概念

1.2 马尔可夫决策过程

1.3 Return, 状态值, 动作值

1.4 贝尔曼公式

1.5 贝尔曼最优公式

第二章基础算法

2.1 值迭代

2.2 策略迭代和截断策略迭代

2.3 蒙特卡洛方法

2.4 时序差分算法

2.5 Sarsa和Q-learning

第三章进阶算法

3.1 值函数估计和Deep Q-learning

3.2 策略梯度法:REINFORCE

3.3 Actor-Critic方法: QAC,A2C

3.4 Off-policy Actor-Critic: DPG, DDPG

3.5 TRPO, PPO算法

动手学控制理论

端到端-理论与实战视频课程

Loading...

目录

Last update: 2024-11-03

我们提供辅导服务:

论文辅导

面试辅导

快去公众号联系小助理吧!

notion image

文章列表

🔥 火热报名中

端到端-理论与实战视频课程

☄️ 端到端

端到端-理论与实战视频课程

端到端论文解读

📡 感知

感知论文解读

🎯 决策规划

动手学运动规划

动手学行为决策

强化学习入门笔记

🔭 轨迹预测

动手学轨迹预测

轨迹预测论文解读

🏎️ Apollo

动手学Apollo

🦋 控制理论

动手学控制理论