自动驾驶小白说

📃论文辅导

⭐面试辅导

🌐全平台账号

Ctrl+K

🔥 火热报名中

端到端-理论与实战视频课程

☄️ 端到端

端到端-理论与实战视频课程

端到端论文解读

📡 感知

感知论文解读

🎯 决策规划

动手学运动规划

动手学行为决策

强化学习入门笔记

🔭 轨迹预测

动手学轨迹预测

轨迹预测论文解读

🏎️ Apollo

动手学Apollo

🦋 控制理论

动手学控制理论

4.c 马尔可夫决策过程求解代码解析

category

type

status

slug

date

summary

tags

password

icon

相信自己，你能做到任何事情。

—《国王的演讲》

本节提供了马尔可夫决策过程求解和蒙特卡罗搜索的代码解析：

4.c.1 策略迭代和值迭代

我们使用策略迭代和值迭代来求解迷宫寻宝问题。迷宫寻宝问题为：有一个5*5的棋盘，超级玛丽位于棋盘的左上角，其可以朝上、下、左、右四个方位移动，每次最多移动一格，记为一步；宝藏位于棋盘最下层的中间格子内，在游戏中玩家控制超级玛丽进行移动，超级玛丽找到宝藏则游戏结束(即超级玛丽和宝藏位于同一个方格)，游戏的目标就是让超级玛丽以最少的步数找到宝藏（如下图所示）。

notion image

代码如下：

结果如下：

notion image

4.c.2 MCTS

这里选用了由Peter Cowling、Ed Powley和Daniel Whitehouse（英国约克大学）于2012年9月编写的较为简单的MCTS代码，实现了一些简单的游戏（Nim（拿取游戏）、OXO（井字棋）和Othello（黑白棋）等游戏），具体代码如下：

动手学控制理论

端到端-理论与实战视频课程

Loading...

目录

Last update: 2024-10-25

我们提供辅导服务:

论文辅导

面试辅导

快去公众号联系小助理吧!

notion image

文章列表

🔥 火热报名中

端到端-理论与实战视频课程

☄️ 端到端

端到端-理论与实战视频课程

端到端论文解读

📡 感知

感知论文解读

🎯 决策规划

动手学运动规划

动手学行为决策

强化学习入门笔记

🔭 轨迹预测

动手学轨迹预测

轨迹预测论文解读

🏎️ Apollo

动手学Apollo

🦋 控制理论

动手学控制理论