6 博弈论-简述

category
type
status
slug
date
summary
tags
password
icon
你相信人能改变命运么?人应竭尽所能,然后再听天由命。
—《肖申克的救赎》
🏰代码及环境配置:请参考 环境配置和代码运行!

6.1 概述

博弈论,也称为对策论或赛格理论,是现代数学的一个分支,同时也是运筹学的重要组成部分。它研究的是具有竞争或对抗性质的个体或团体在决策过程中的相互作用。博弈论的起源可以追溯到20世纪初,由恩斯特·策梅洛、埃米尔·博雷尔和冯·诺伊曼等人发起。自那时起,博弈论在经济学、政治学、社会学、生物学等多个领域都得到了广泛应用。
博弈就是个人或组织在一定的环境条件与既定的规则下,同时或先后,仅仅一次或是进行多次地选择策略并实施,从而得到某种结果的过程。简单来说博弈论就是研究人们如何进行决策、以及这种决策如何达到均衡的问题。每个博弈者在决定采取何种行动时,不但要根据自身的利益和目的行事,还必须考虑到他的决策行为对其他人的可能影响,以及其他人的反应行为的可能后果,通过选择最佳行动计划,来寻求收益或效用的最大化。

6.2 博弈的构成要素

notion image
  • 参与人(Players)
    • 做决策的个体,每个参与人的目标都是通过选择行为来最大化自身的效用,有时候,模型会明确引入“虚拟参与人(pseudo-players)”。常用表示参与人的有限集合。
  • 行动(Action)
    • 参与人的行动以表示,是他所能做的某一选择,也是参与人所选择的决策。每个参与人的行动集为,表示他可以选择的行动的集合。
  • 信息(Information)
    • 信息:是参与人拥有的有关博弈的所有知识:其他参与人行动或策略的知识、有关参与人收益支付的知识。
    • 信息集(Information Set):在动态博弈的扩展形式中,信息集(Information Set)是一系列的决策节点(decision nodes)的集合,这些节点属于同一个玩家,并且该玩家无法区分这些节点。信息集通常在博弈树中用虚线连接表示。处于同一个信息集中的节点意味着在玩家做决策时,他们不知道博弈历史的详细信息,即他们不知道之前发生了什么,只知道自己之前的选择和可能的结果。如下图所示,参与人2不知道自己当前位于哪个节点。
      • notion image
    • 完美信息(Perfect Information):如果一个博弈中,每个玩家在做出决策时都完全知道之前所有玩家的行动,那么这个博弈就是完美信息博弈。在完美信息博弈中,每个玩家的信息集只包含单个决策节点,因为玩家总能准确知道博弈的当前状态。
    • 完全信息(Complete Information): 所有参与者都完全了解所有其他参与者的收益函数和其他相关信息,例如策略集和收益矩阵。换句话说,博弈的规则和每个参与者的目标是公开且众所周知的。完全信息可以适用于静态博弈和动态博弈.
    • 对称信息(Symetric Information):是指在某种相互对应的经济人关系中,对应的双方都掌握有对方所具备的信息,也就是说双方都了解对方所具有的知识和所处的环境。
  • 策略(Strategies)
    • 策略是玩家在所有可能发生情况下的一套完整行动计划。它详细描述了玩家在赛局的任一阶段所采取的行动,不论这一阶段之前是如何演变而来的。策略决定了玩家在每一种可能的信息状态下的行动选择。与行动不同,策略不仅包括了玩家在博弈中的选择,还包括了在不同情况下的选择规则。
    • 行动是具体的选择,而策略是做出这些选择的计划。
    • 在一次性决策中,行动和策略可能看起来相同,因为玩家可能只做了一个具体的选择。但在多阶段或重复的博弈中,策略更显重要,因为它涵盖了整个博弈过程中的行动指导。
    • 策略可以包含对其他玩家行动的响应,而行动仅是玩家在特定时刻的单一选择。
  • 支付(Payoffs)
    • 采取某种策略后,参与人各自获得的一个利益盈亏的一个估量。参与人的收益函数: 表示一组策略下它的收益。
  • 结果(Outcome)
    • 指博弈结束之后,建模者从行为、支付及其它变量的取值中所挑选出来的他所感兴趣的要素的集合,策略组合:
  • 均衡(Equilibria)
    • 指参与人最大化各自的支付时所选取的策略。通俗地说,在博弈达到均衡时,每一个参与人都不可能因为单方面改变自己的策略而增加收益,于是各方为了自己利益的最大化而选择了某种最优策略,并与其他对手达成了某种暂时的平衡。在外界环境没有变化的情况下,倘若有关各方坚持原有的利益最大化原则并理性面对现实,那么这种平衡状况就能够长期保持稳定。
博弈论模型可用5个要素来确定:参与人、行动、策略、信息和支付。结果和均衡是模型解的表达,即可预测稳定的参与人行为,这也是博弈论所研究问题要达成的目的。

6.3 博弈模型的分类

博弈模型可以按照不同的分类方式进行分类,比如按照博弈者出招的顺序,博弈者对其他参与人特征、策略空间和收益是否了解进行分类。
  • 静态博弈和动态博弈
    • 按照参与人行动的顺序、博弈持续时间和重复次数,可以分为静态博弈和动态博弈。
      静态博弈:参与博弈的各方同时采取策略,这些博弈者的收益取决于博弈者们不同的策略组合
      动态博弈:在博弈中,参与博弈的博弈者所采取的策略是有先后顺序的,且博弈者能够知道先采取策略者所选择的策略。
  • 零和博弈和变和博弈
    • 根据博弈方的收益,博弈可以分为零和博弈(Zero-Sum Game)与非零和博弈(Non-Zero-Sum Game),常和博弈(Constant-Sum Game)与变和博弈(Variable-Sum Game)。
  • 完全信息博弈和不完全信息博弈
    • 根据博弈者对其他参与博弈者所了解的信息的完全程度,博弈可以分为完全信息博弈(Complete Information Game)与不完全信息博弈(Incomplete Information Game),以及完美信息博弈(Perfect Information Game)与不完美信息博弈(Imperfect Information Game),确定的博弈(Certainty Game)与不确定的博弈(Uncertain Game),对称信息博弈(Symmetric Game)与非对称信息博弈(Asymmetric Game)等等。
  • 合作博弈和非合作博弈
    • 按照博弈者之间是否有合作关系,博弈可以分为合作博弈(Cooperative Game)和非合作博弈(Non-Cooperative Game)。合作博弈指的是博弈者之间有着一定的协议,他们需要在协议允许的范围内博弈。比如两个企业之前通过一定的谈判达成协议,对各自的产量或价格进行操作,以达到共同垄断市场的行为。反之如果博弈者不能通过谈判达成一个有约束力的协议来限制博弈者的策略,那么就是非合作博弈。非合作博弈可以分为:完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈,非合作博弈是现代博弈论的根基,上面介绍的是博弈论的主流框架。与之对应的有四种均衡:纳什均衡(Nash Equilibrium)、子博弈精炼纳什均衡(Subgame Perfect Nash Equilibrium)、贝叶斯纳什均衡(Bayesian Nash Equilibrium)、精炼贝叶斯纳什均衡(Perfect Bayesian Nash Equilibrium)。它们的关系如下表:
      notion image

6.3 博弈模型的表达方式

在博弈论中,策略式表达(Strategy Form Expression)和扩展式表达(Extensive Form Expression)是描述博弈的两种主要方式。
  • 策略式表达
策略式表达,也称为标准式表达,是一种抽象的博弈描述方式。它主要关注玩家的策略选择和相应的收益,而不涉及具体的行动顺序或决策过程。在策略式表达中,每个玩家的策略是一组行动规则,这些规则定义了玩家在每一种可能情况下的行动选择。
特点
  • 玩家集合:定义了参与博弈的玩家。
  • 策略集合:每个玩家的策略集合包括了该玩家在博弈中可能采取的所有行动。
  • 收益函数:描述了每个玩家根据策略组合所能获得的效用或收益。
  • 策略组合:所有玩家策略的组合,形成一个策略组合,每个策略组合对应一个收益组合。
策略式表达适用于同时行动的博弈(如囚徒困境)或行动顺序不重要的博弈。它通常用矩阵或表格形式表示,其中行代表一个玩家的策略,列代表另一个玩家的策略,单元格中的值代表相应的收益。
notion image
  • 扩展式表达
扩展式表达,也称为博弈树表达,是一种更直观的博弈描述方式。它通过树状图展示了博弈的决策过程,包括行动顺序、信息集和每个决策节点的策略选择。
特点
  • 决策节点:表示玩家的决策点,每个节点代表一个玩家在特定时刻的策略选择。
  • 信息集:一组决策节点的集合,表示玩家在这些节点上具有相同的信息状态,即玩家不知道自己处于哪个具体的节点。
  • 行动:边代表玩家的行动选择,连接决策节点。
  • 终点节点:博弈的最终结果,每个终点节点对应一个收益组合。
  • 子博弈:博弈树的子树,代表博弈的一部分,可以独立分析。
扩展式表达适用于顺序行动的博弈(如下棋),其中玩家的决策依赖于之前玩家的行动和自身的信息状态。它特别适用于具有完美或不完美信息的动态博弈。
notion image
 
  • 异同点
策略式表达和扩展式表达提供了不同的视角来分析博弈:
  • 策略式表达强调策略和收益的关系,适用于同时行动或行动顺序不重要的博弈。
  • 扩展式表达强调决策过程和信息结构,适用于顺序行动和信息不对称的博弈。
上一篇
动手学控制理论
下一篇
端到端-理论与实战视频课程
Loading...