自动驾驶小白说
📃论文辅导
⭐面试辅导
🌐全平台账号
Github
知乎
哔哩哔哩
淘宝店铺
Ctrl+K
📃论文辅导
⭐面试辅导
🌐全平台账号
Github
知乎
哔哩哔哩
淘宝店铺
🏰 主页
🔥 火热报名中
端到端-理论与实战视频课程
☄️ 端到端
端到端-理论与实战视频课程
端到端论文解读
📡 感知
感知论文解读
🎯 决策规划
动手学运动规划
动手学行为决策
强化学习入门笔记
🔭 轨迹预测
动手学轨迹预测
轨迹预测论文解读
🏎️ Apollo
动手学Apollo
🦋 控制理论
动手学控制理论
强化学习入门笔记
category
type
status
slug
date
summary
tags
password
icon
本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.
课程视频网址:
https://space.bilibili.com/2044042934
第一章 基本概念
1.1 基本概念
1.2 马尔可夫决策过程
1.3 Return, 状态值, 动作值
1.4 贝尔曼公式
1.5 贝尔曼最优公式
第二章 基础算法
2.1 值迭代
2.2 策略迭代和截断策略迭代
2.3 蒙特卡洛方法
2.4 时序差分算法
2.5 Sarsa和Q-learning
第三章 进阶算法
3.1 值函数估计和Deep Q-learning
3.2 策略梯度法:REINFORCE
上一篇
动手学控制理论
下一篇
端到端-理论与实战视频课程
Loading...
目录
第一章 基本概念
第二章 基础算法
第三章 进阶算法
Last update: 2024-11-03
第一章 基本概念
第二章 基础算法
第三章 进阶算法
我们提供辅导服务:
论文辅导
面试辅导
快去
公众号
联系小助理吧!
文章列表
🏰 主页
🔥 火热报名中
端到端-理论与实战视频课程
☄️ 端到端
端到端-理论与实战视频课程
端到端论文解读
📡 感知
感知论文解读
🎯 决策规划
动手学运动规划
动手学行为决策
强化学习入门笔记
🔭 轨迹预测
动手学轨迹预测
轨迹预测论文解读
🏎️ Apollo
动手学Apollo
🦋 控制理论
动手学控制理论
文章列表
目录