8 博弈论-完全信息动态博弈
category
type
status
slug
date
summary
tags
password
icon
你要尽全力保护你的梦想。那些嘲笑你梦想的人,因为他们必定会失败。
—《当幸福来敲门》
🏰代码及环境配置:请参考 环境配置和代码运行!
在完全信息静态博弈中,博弈参与者同时采取行动。但在完全信息动态博弈中,博弈参与者的行动存在先后顺序。从信息角度上,完全信息动态博弈和完全信息静态博弈类似,博弈参与者对博弈结构、博弈顺序和双方收益等信息都具备完全了解。
8.1 完全信息动态博弈的定义
在完全信息动态博弈中,参与者的行动有先后顺序,后行动者可以观察到先行动者所选择的行动。这种博弈的特点是:
- 动态性:行动顺序性,后行动者能够看到先行动者的决策。
- 完全信息:所有参与者对博弈的结构、规则和收益函数都有完全的了解。
8.2 博弈的扩展式表述
博弈的扩展式常常用博弈树来描述,其可以很好地展示参与者的行动顺序和信息结构。博弈树始于参与人1的一个决策结(decision node),这是参与人1要从和中做出选择,如果参与人1选择,其后就到达参与人2的一个决策结,这是参与人2要从和中选择行动。无论参与人2选择哪一个行动,都将到达终点结(terminal node)(即博弈结束),且两个参与人分别得到相应终点结下面的收益,如下图所示:
8.2.1 博弈树的构成要素
博弈树的构成要素如下:
- 博弈参与者。
- 行动顺序:在动态博弈中,博弈参与者的行动存在先后顺序。
- 行动策略空间(Action Set):指博弈参与者可以采取的所有可能策略。
- 信息集(Information Set):指博弈参与者在博弈过程中所知道的信息。
- 支付函数(Pay Off):博弈参与者采用特定策略所能得到的收益。
8.2.2 信息集
参与人的一个信息集指满足以下条件的决策结的集合:
- 在一个信息集中的任何一个结点,都轮到同一个参与者行动。
- 当博弈进行到某个信息集中的一个结点时,应该行动的参与人并不知道达到了信息集中的哪一个决策结。
在引入信息集的概念之后我们就可以更好地区分完美信息和完全不完美信息。之前,我们将完美信息定义为在博弈的每一步行动中,轮到行动的参与者了解前面博弈进行的全部过程。有了信息集后,我们也可以将完美信息定义为每一个信息集都是单结的,相反,非完美信息则意味着至少存在一个非单结的信息集。那么一个同时行动博弈的扩展式表述就是一个非完美博弈。这种用是否是单结信息集区分完全信息和非完美信息的方法只限于完全信息的博弈。如下图就是一个完全但非完美信息的博弈:
8.2.2 博弈树的特点
- 博弈树的根结点就是初始结点。
- 在博弈树中,”或”结点和”与”结点是逐层交替出现的。自己一方扩展的结点之间是”或”关系,对方扩展的结点之间是”与”关系。双方轮流地扩展结点。
- 非叶子结点:代表博弈玩家,表示这个时候哪个博弈玩家做出决策。每个非叶子结点有且仅有一个博弈玩家。叶子结点:代表每个玩家在此时的收益,收益只存在于叶子结点。
- 边:表示策略
8.3 子博弈完美纳什均衡(Subgame Perfect Nash Equilibrium,SPNE)
8.3.1 子博弈
子博弈是原始动态博弈的一部分。子博弈包含博弈所需的各种信息,能独立构成一个博弈。一个子博弈需要满足以下条件:
- 子博弈的起始结点不能是原来博弈的起始结点。
- 子博弈不能分割信息集。
- 有些博弈包含多个子博弈。
- 有些博弈没有子博弈。
如下图,每层虚线框都代表了一个子博弈:
8.3.2 逆向归纳法
逆向归纳法是指在求解动态博弈时,首先找到博弈顺序在最后的子博弈,找到子博弈中博弈参与者的策略选择,然后按博弈顺序从后往前逆向归纳,直至博弈树的初始节点,从而找到博弈的均衡。
逆向归纳法的求解步骤:
- 从最后一步开始分析:假设博弈进入最后一阶段,此时,最后一个行动者面对的是前面参与者的行动结果。由于此时没有后续的行动者,他只需要根据当前的局面选择能使自己收益最大化的策略。
- 倒推至前一阶段:一旦确定了最后一阶段的最优策略,我们就可以将其作为已知条件,倒推前一阶段的最优策略。此时,前一阶段的行动者知道后续行动者的反应,因此他会根据自己预期的收益来选择最优行动。
- 依次向前推导:通过上述方法,从最后一个阶段逐步推导回到最初阶段。每一阶段的参与者都假设未来的参与者会理性行事,依据他们的反应来选择自己的最优策略。最终,通过这种逆向推理,可以得到每个参与者在每个节点的最优行动,从而确定整个博弈的均衡解。
8.3.2 示例
从最末端的非叶子节点开始(从最后的子博弈开始),计算纳什均衡(NE)(此时对于这个非叶子结点的玩家,相当于寻找他的最优收益)。用这个收益,替代这个子博弈根节点,重复直至根节点。通过逆向归纳构造的策略博弈集等价于SPNE的集合。
如下图所示:红色的勾代表选择这个分支,从下往上推,每个人选择自己收益较高的分支。
上一篇
动手学控制理论
下一篇
端到端-理论与实战视频课程
Loading...