4.c 马尔可夫决策过程求解代码解析
category
type
status
slug
date
summary
tags
password
icon
相信自己,你能做到任何事情。
—《国王的演讲》
本节提供了马尔可夫决策过程求解和蒙特卡罗搜索的代码解析:
4.c.1 策略迭代和值迭代
我们使用策略迭代和值迭代来求解迷宫寻宝问题。迷宫寻宝问题为:有一个5*5的棋盘,超级玛丽位于棋盘的左上角,其可以朝上、下、左、右四个方位移动,每次最多移动一格,记为一步;宝藏位于棋盘最下层的中间格子内,在游戏中玩家控制超级玛丽进行移动,超级玛丽找到宝藏则游戏结束(即超级玛丽和宝藏位于同一个方格),游戏的目标就是让超级玛丽以最少的步数找到宝藏(如下图所示)。
代码如下:
结果如下:
4.c.2 MCTS
这里选用了由Peter Cowling、Ed Powley和Daniel Whitehouse(英国约克大学)于2012年9月编写的较为简单的MCTS代码,实现了一些简单的游戏(Nim(拿取游戏)、OXO(井字棋)和Othello(黑白棋)等游戏),具体代码如下:
上一篇
动手学控制理论
下一篇
端到端-理论与实战视频课程
Loading...