自动驾驶小白说自动驾驶小白说
  • 📃论文辅导
  • ⭐面试辅导
  • 🌐全平台账号
    • Github
    • 知乎
    • 哔哩哔哩
    • 淘宝店铺
  • Ctrl+K
    📃论文辅导
    ⭐面试辅导
    🌐全平台账号
    Github
    知乎
    哔哩哔哩
    淘宝店铺
    🏰 主页
    🔥 火热报名中
    端到端-理论与实战视频课程
    ☄️ 端到端
    端到端-理论与实战视频课程
    端到端论文解读
    📡 感知
    感知论文解读
    🎯 决策规划
    动手学运动规划
    动手学行为决策
    强化学习入门笔记
    🔭 轨迹预测
    动手学轨迹预测
    轨迹预测论文解读
    🏎️ Apollo
    动手学Apollo
    🦋 控制理论
    动手学控制理论
    自动驾驶小白说.
    © 2024-2025
    Powered By NotionNext 4.8.3

    自动驾驶小白说

    强化学习入门笔记

    category
    type
    status
    slug
    date
    summary
    tags
    password
    icon
    本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.
    课程视频网址:https://space.bilibili.com/2044042934

    第一章 基本概念

    • 1.1 基本概念
    • 1.2 马尔可夫决策过程
    • 1.3 Return, 状态值, 动作值
    • 1.4 贝尔曼公式
    • 1.5 贝尔曼最优公式

    第二章 基础算法

    • 2.1 值迭代
    • 2.2 策略迭代和截断策略迭代
    • 2.3 蒙特卡洛方法
    • 2.4 时序差分算法
    • 2.5 Sarsa和Q-learning

    第三章 进阶算法

    • 3.1 值函数估计和Deep Q-learning
    • 3.2 策略梯度法:REINFORCE
    • 3.3 Actor-Critic方法: QAC,A2C
    • 3.4 Off-policy Actor-Critic: DPG, DDPG
    • 3.5 TRPO, PPO算法
     
    上一篇
    动手学控制理论
    下一篇
    端到端-理论与实战视频课程
    Loading...
    目录
    第一章 基本概念第二章 基础算法第三章 进阶算法
    自动驾驶小白说.
    © 2024-2025
    Powered By NotionNext 4.8.3

    自动驾驶小白说

    Last update: 2024-11-03
    第一章 基本概念第二章 基础算法第三章 进阶算法

    我们提供辅导服务:
    • 论文辅导
    • 面试辅导
    快去公众号联系小助理吧!
    notion image
    文章列表
    🏰 主页
    🔥 火热报名中
    端到端-理论与实战视频课程
    ☄️ 端到端
    端到端-理论与实战视频课程
    端到端论文解读
    📡 感知
    感知论文解读
    🎯 决策规划
    动手学运动规划
    动手学行为决策
    强化学习入门笔记
    🔭 轨迹预测
    动手学轨迹预测
    轨迹预测论文解读
    🏎️ Apollo
    动手学Apollo
    🦋 控制理论
    动手学控制理论