7 博弈论-完全信息静态博弈
category
type
status
slug
date
summary
tags
password
icon
你不能一直做一些烂事,然后自己后悔,后悔是没用的。
—《后会无期》
🏰代码及环境配置:请参考 环境配置和代码运行!
完全信息静态博弈是指参与者在做出决策之前拥有所有可能的信息:对手的策略和收益。因此每位参与者可以准确地评估各种选择对自己和对手的影响。这种情况下,决策的结果是确定性的,不受随机因素影响。参与者通过理性分析和预测对手的行为,以最大化自身利益。
7.1 静态博弈模型的策略式表达
参与人(Players): 是参与人的集合;第个参与人。
策略集(Strategy Set): 是第个参与人的策略集,是第个参与人策略集的一个元素。所有参与人的策略放在一起,称之为博弈的策略组合,表示为:。
支付函数(Payoff): 是第个参与人的支付函数,即:。
博弈模型的策略式可用收益矩阵来表示,如下:
7.2 占优策略(Dominant Strategies)
7.2.1 概念
在完全信息静态博弈中,我们将博弈模型表述为:
其中,和是参与人的两个策略,如果对于其他参与人每一个可能的策略组合,参与人选择的收益都小于选择的收益,则称策略相对于策略是严格劣策略,即:
对其他参与人在策略空间中的每一组可能的策略组合都成立。
与此相反,如果对于其他参与人每一个可能的策略组合,参与人选择的收益都大于选择的收益,则称策略相对于策略是严格优策略,即:
对其他参与人在策略空间中的每一组可能的策略组合都成立。
若上面关系变为:
或者:
则称策略相对于策略是弱劣策略或者弱优策略。
占优策略:若是参与人的一个策略,如果对于其他参与人每一个可能的策略组合,选择的收益都大于或等于选择的收益,其中是任一策略,则称策略是参与人的占优策略,即:
对其他参与人在策略空间中的每一组可能的策略组合都成立。
占优策略是指不论对手选择什么,自己的某个策略都不比其他策略差的策略。如果自己的某个策略严格强于(收益大于)任何其他策略,那么该策略还被称为严格占优策略。占优均衡是指如果每个参与人都存在占优策略,那么这些占优策略放在一起,构成了博弈的占优均衡。劣策略是指不论对手选择什么,自己都不会选择的策略。对于劣策略。可以直接剔除以简化博弈,如果剔除到最后只留下唯一一个策略组合,那么这个策略组合就是我们说的重复剔除严格劣策略均衡。
7.2.2 示例
- 如下所示的囚徒困境博弈
对于其中一个囚徒,对手无论是坦白还是抵赖,选择坦白的结果均好于抵赖,可知,坦白属于占优策略,(-8,-8)称为占优策略均衡。
7.3 纳什均衡(Nash equilibrium)
7.3.1 概述
纳什均衡指的是在其他参与人不改变策略的前提下,任何参与人单独改变策略都不会得到好处。
在博弈中,如果由所有参与人的各个策略组成的某个策略组合中,任一个参与人的策略,都是对其余参与人的组合的最佳对策,即:
对任意都成立,则称是博弈模型的一个纳什均衡。
🌟Note: 数学定义: 任何一方采取的策略都是对其余所有方采取策略组合下的最佳对策;当所有其他人都不改变策略时,为了让自己的收益最大,任何一方都不会(或者无法)改变自己的策略,这时的策略组合就是一个纳什均衡,也叫纯策略纳什均衡。
🌟Note: 在一个博弈模型中,可能没有纳什均衡,可能有一个,也可能有多个。
7.3.2 求解—划线法
对于一个简单的两个参与人的同时博弈,可以用一个以二元数组为元素的支付矩阵来表示,并用“划线法”来确定他的纳什均衡
划线法是最优反应函数的实践应用,具体步骤如下:
- 把整个博弈的支付矩阵分解为两个参与人的支付矩阵。
- 在第一个(即位于整个博弈矩阵左方的)参与人(甲)的支付矩阵中,找出每一列的最大者,并在其下画线。
- 在第二个(即位于整个博弈矩阵上方的)参与人(乙)的支付矩阵中,找出每一行的最大者,并在其下画线。
- 将已经画好线的两个参与人的支付矩阵再合并起来,得到带有下划线的整个博弈的支付矩阵。
- 在带有下划线的整个的支付矩阵中,找到两个数字之下均画有线的支付组合。由该支付组合代表的策略组合就是博弈的纳什均衡。
7.4 混合策略纳什均衡
7.4.1 混合策略概述
混合策略是给每个纯策略分配一个概率,一个参与人的策略集就是一个“样本空间”。用表示上的概率分布,即:
期望收益:在这样一个“随机”的博弈中,我们需要计算的是就是期望收益了。期望的收益就是纯策略的博弈结果收益乘上这个结果出现的概率,对每个博弈结果进行求和。
混合策略博弈结果:,引入,则。
给定一个策略式博弈和一个混合策略博弈结果,参与人的期望收益是:
🌟Note: 假设每个局中人是独立决策的,因此是每个局中人的相应策略的概率乘积
7.4.2 混合策略的纳什均衡
一个混合策略博弈结果是一个混合策略纳什均衡(mixed strategy Nash equilibrium,简记为MNE),对于每个参与人,都有:
通俗地解释就是:每个局中人都选择在对手不改变的情况下的最好的分布,即玩家选任意一种纯策略的期望收益是相同的。
🌟Note: 如果想保持一种”稳定“的局面,每个玩家都没有动机改变当前的策略(或分布),就要保证它选择每个策略的期望收益都相同
7.4.3 示例
假设玩家1选择的概率是,玩家2选择的概率是
由玩家2选择的期望收益等于玩家2选择的期望收益,得:
由玩家1选的期望收益等于玩家1选的期望收益,得:
解方程得:
因此求得纳什均衡:
上一篇
动手学控制理论
下一篇
端到端-理论与实战视频课程
Loading...