1.5 贝尔曼最优公式 | 自动驾驶小白说

1.5.1 定义

如果满足下式, 称之为fixed point(不动点)

如果一个函数满足下面不等式, 则称这个函数满足Contraction mapping

如果函数满足Contraction mapping, 则有Contraction mapping theorem:

如果对于所有的状态, 策略的状态值大于等于其他任何一个策略的状态值, 那么称之为状态空间中的最优策略:

在贝尔曼公式的基础上, 求解使得状态值最大的策略就是贝尔曼最优公式:

将贝尔曼最优公式写成矩阵形式:

如果将右边的最优化问题, 定义为函数:

书中详细证明了函数符合Contraction mapping, 有兴趣可以看详细证明, 这里我们使用结论即可.

Contraction mapping theorem告诉我们:贝尔曼最优公式一定存在唯一解, 并且可以用迭代的方式求解.

当我们有了最优解之后, 就有它对应的最优策略:

那么贝尔曼最优公式可以简写成:

我们可以发现, 这就是一个贝尔曼公式. 只不过他的参数是最优策略, 也就是说贝尔曼最优公式是贝尔曼公式在最优策略下的一个特殊形式.

, 书中同样详细证明了为什么和是最优的.

最优策略的Greedy optimal policy(贪婪最优定理), 对于任何，贝尔曼最优公式的最优解唯一, 且是确定性贪婪策略:

之所以称之为贪婪, 是因为只有最优动作的概率是1, 其他动作概率都是0. 但是仍然有以下两个性质需要注意:

这个例子可以说明上面的两个特性: 两个策略的状态值都是最优, 那么它们都是最优策略; 并且左边是确定策略, 右边是随机策略.

我们重新回顾贝尔曼最优公式:

举个例子说明参数的影响,在这样参数设置时:

它的最优策略和最优状态值如下图所示, 它会倾向于穿过禁止格, 抵达终点:

当我们把时, 最优策略则倾向于绕过禁止格, 抵达终点:

当我们把时, 最优策略则几乎放弃抵达终点, 倾向于脱离禁止格后原地不动, 因为它只考虑了眼前的即时动作奖励:

这几个例子说明了代表奖励设计的远视程度: 越大说明越鼓励长远的收益; 越小说明越鼓励眼前的收益;

不过需要说明的是, 只要不等于1, 远期收益都会逐渐衰减. 我们可以看return的公式:

因为, 越远期的奖励折扣率越小, 它自然的就会使得远期收益逐渐衰减.

如果我们非常不希望策略进入禁止格, 那么我们可以将禁止格惩罚设置为-10或者是更小的值, 来惩罚对应的动作.

但是显而易见的是: 如果整体性的放大奖励, 比如将终点奖励也设置为10, 结果不会有任何变化.