3.2 策略梯度法:REINFORCE

category
type
status
slug
date
summary
tags
password
icon
本系列为学习赵世钰老师的《强化学习的数学原理》所作的学习笔记.
既然我们可以用函数拟合值函数, 那么是否可以直接拟合策略呢? 本节将介绍策略梯度法.

3.2.1 策略梯度法

3.2.1.1 策略表征

在之前的算法中, 我们的策略都是用离散表格的形式表达:
与值函数拟合类似的, 也可以通过一个函数来拟合它, 或者通过神经网络:
notion image
其中是拟合函数的参数. 显然, 可以通过梯度下降法求最优策略:
既然是一个最优化问题, 首先需要定义评价最优策略的指标. 有以下两种方法.

3.2.1.2 评价最优策略的指标:平均状态值

基于策略的所以状态值的加权平均值, 其中是状态的权重分布:
  • 与状态值相互独立
此时我们可以简单的采用均匀分布, 也可以只考虑某一个状态
  • 依赖于状态值
此时是基于策略的静态分布, 是状态转移概率分布
被设计为:在马尔科夫决策过程中, 状态被探索到的概率.
 
总之代表策略的平均状态值, 我们的目标是调整参数, 让尽可能的大. 接下来我们写出的等价形式:
上式实际就是马尔科夫决策过程中完整的奖励期望, 将期望按照状态和权重逐个展开:
另一个较为简单的等价形式:

3.2.1.3 评价最优策略的指标:平均奖励值

也可以用平均奖励值作为指标, 定义如下:
同样是马尔科夫决策过程中, 状态被探索到的概率.
其中具体某一个状态s的奖励值定义为:
同样我们也可以写出它的两个等价形式, 首先当n趋近无穷时, 下式就是平均奖励值:
以及:
实际上, 平均奖励值是平均状态值的一部分:

3.2.1.4 梯度计算

策略梯度定义如下:
其中是状态分布, 是基于参数的策略. 上式还可以写成:
推导过程如下, 首先对下式求梯度:
然后将其代入到公式中, 即可推导出第二种形式:

3.2.2 蒙特卡洛策略梯度 (REINFORCE)

首先, 我们写出策略梯度的更新公式:
但是它的真实梯度期望是不知道的, 因此用随机梯度下降法, 用采样梯度代替:
其中采样的近似, 如果使用蒙特卡洛估计动作值的方式, 即采样episode并计算discounted return. 那么这种方法就是REINFORCE.
notion image
接下来, 我们将详细的解释这个更新公式, 首先将梯度项展开:
将其中的常数项简写为:
(1) 影响策略概率的变化
因为这是一个梯度下降法的更新公式, 因此:
  • 时, 会在此次更新变大, 即选择动作的概率变大
  • 时, 会在此次更新变小, 即选择动作的概率变小
2) 代表探索(exploration)和开发(exploitation)的平衡
上面已经说明了越大, 会使得选择此动作的概率越大. 那么我们观察的分子是动作值, 分母是概率值.
  • 分子动作值越大, 越大, 代表鼓励开发(exploitation)当前动作值已经比较大的动作.
  • 分母概率值越小, 越大, 代表鼓励探索(exploration)当前概率值还比较小的动作.
 
上一篇
动手学控制理论
下一篇
端到端-理论与实战视频课程
Loading...