Page QiView

动态博弈与子博弈精炼:序贯理性与承诺问题

动态博弈与子博弈精炼:序贯理性与承诺问题

1 扩展式博弈的形式化表述

静态博弈无需规定行动顺序;而动态博弈(dynamic game / extensive-form game)显式刻画时间顺序和信息传递,是分析序贯决策的规范工具。

1.1 扩展式博弈的构成要素

扩展式博弈由以下要素构成:

  1. 参与人集合 $N$(加上"自然" Nature,用于刻画随机事件)
  2. 博弈树(game tree):一棵有根的有向树,节点代表决策或终端结果
    • 决策节(decision node):由某参与人采取行动
    • 终端节(terminal node / outcome):博弈结束,各参与人获得收益
  3. 行动集 $A(v)$:决策节 $v$ 处可采取的行动集合
  4. 信息集(information set)$h$:参与人无法区分的决策节集合——体现信息结构
  5. 收益函数 $u_i : Z \to \mathbb{R}$:$Z$ 为终端节集合

完美信息博弈(perfect information game):每个信息集仅含一个节点,参与人知道历史上发生的所有行动。
不完美信息博弈(imperfect information game):存在含多个节点的信息集,某些历史不可观测。

1.2 策略的精确定义

在扩展式博弈中,参与人 $i$ 的策略是对其每个信息集指定行动的完整计划(complete contingent plan):

$$s_i : \mathcal{H}_i \to A \quad \text{s.t. } s_i(h) \in A(h) ; \forall h \in \mathcal{H}_i$$

即使某些信息集在实际博弈过程中永远不会被到达,策略也必须在那些信息集上规定行动。这一"完整性"要求看似多余,但对均衡精炼至关重要。


2 逆向归纳与子博弈精炼纳什均衡

2.1 逆向归纳法(Backward Induction)

适用条件:完美信息有限博弈(finite perfect information game)

算法

  1. 找到博弈树中所有直接前驱终端节的决策节(“倒数第一层"节点)
  2. 在每个这样的节点处,选择使当前参与人利润最大化的行动
  3. 将该节点视为已解,以最大收益作为"收益”,收缩为终端节
  4. 对博弈树重复上述步骤,直至到达根节点

定理(Zermelo, 1913):每个有限完美信息博弈有逆向归纳解,且有唯一逆向归纳结果(当所有收益严格有别时)。

2.2 子博弈精炼纳什均衡(SPNE)

Selten(1965) 提出了子博弈精炼均衡,将逆向归纳逻辑推广到不完美信息博弈。

定义(子博弈 subgame):扩展式博弈的子博弈是一棵以某决策节 $v$ 为根的子树,满足:

  • $v$ 所在信息集只包含 $v$(即 $v$ 处参与人知道博弈到了 $v$)
  • 包含 $v$ 的子树中所有决策节的所有继承节均在子树内(信息集不被"割裂")

定义(SPNE):策略组合 $s^$ 是子博弈精炼纳什均衡,若 $s^$ 在每个子博弈上的限制都构成该子博弈的纳什均衡。

与逆向归纳的关系:有限完美信息博弈中,每个逆向归纳解都是SPNE;反之,每个SPNE的结果都与某个逆向归纳解一致。


3 不可置信威胁与承诺问题

3.1 最后通牒博弈(Ultimatum Game)

参与人1(提议者)提出分配 $(x, 1-x)$($x$ 是自己保留的份额,总资源为1),参与人2(响应者)接受或拒绝;若拒绝,双方均获0。

SPNE分析(通过逆向归纳):

  • 第二阶段:参与人2面对提议 $x$。若 $1-x > 0$,则接受严格优于拒绝;若 $1-x = 0$,则无差异
  • 第一阶段:参与人1预见到参与人2会接受任何 $x < 1$ 的提议,故提议 $x = 1 - \epsilon$(接近垄断)

唯一SPNE结果:参与人1提议 $x \approx 1$,参与人2接受(几乎独吞全部资源)。

实验结果的异常:大量实验表明,提议者通常给出约40-50%,响应者会拒绝低于20-30%的提议(Güth et al., 1982)。这挑战了纯自利的标准理论,引出了不平等厌恶(inequality aversion, Fehr & Schmidt, 1999)和互惠性(reciprocity)等行为博弈论模型。

3.2 市场进入博弈中的不可置信威胁

情形:市场中有在位者 I 和潜在进入者 E。

  • 博弈树:E 先行动(进入/不进入),I 后行动(打价格战/接受)

收益矩阵(格式:E的收益, I的收益):

I 的行动 →打价格战接受共存
E 进入$(-1, -1)$$(1, 1)$
E 不进入$(0, 3)$

SPNE分析

  • 若 E 进入,I 的最优反应是接受共存($1 > -1$)——打价格战不可置信
  • 预见到此,E 选择进入($1 > 0$)

唯一SPNE:E 进入,I 接受共存。

不是SPNE的纳什均衡:策略组合"E不进入,I若E进入则打价格战"也是纳什均衡(给定I会打价格战,E选择不进入是最优;给定E不进入,I的策略无关紧要),但它依赖于不可置信的离均衡路径威胁,故不是SPNE。


4 连锁店悖论(Chain Store Paradox)

4.1 情形描述

Selten (1978) 提出的著名悖论:一家连锁店(in位者M)在 $n = 20$ 个城市经营,第 $k$ 个城市依次面对潜在进入者。若某进入者进入,M可选择合作(扩价共存)或打价格战

单次博弈收益(进入者E, 连锁店M):

  • M打价格战:$(E: -2, M: -1)$
  • M合作:$(E: 1, M: 1)$
  • E不进入(M维持垄断):$(E: 0, M: 2)$

4.2 逆向归纳的悖论

逆向归纳预测

  • 在**最后一个(第20个)**市场,M绝不会打价格战(因后续无博弈,合作收益1 > 打价格战 −1)
  • 预见到此,第20个进入者一定进入
  • 递推到第19个市场……对M没有威慑价值,同样进入
  • 所有进入者都进入

现实直觉的反叛:若M在前期打价格战,建立"强硬"声誉,后期进入者可能被威慑。这种逻辑在有限重复博弈中被逆向归纳否定——但在不完全信息下(进入者不确定M是"强硬型"还是"弱型"),声誉效应可以恢复(详见不完全信息博弈篇)。

Selten 的"亲测直觉":Selten 坦言,即便他推导出了逆向归纳结论,作为商人他仍会在前期打价格战。这一悖论促发了行为博弈论和有限理性建模的发展。


5 谈判博弈:Rubinstein交替出价模型

5.1 模型设定(Rubinstein, 1982)

两方参与人谈判分配"馅饼"(总量为1),以交替出价方式进行无限期讨价还价:

  • 奇数期参与人1提议,参与人2接受/拒绝
  • 偶数期参与人2提议,参与人1接受/拒绝
  • 若接受,成交;若永远拒绝,双方均得0
  • 折现因子:参与人 $i$ 的 $\delta_i \in (0, 1)$(每等待一期折损效用)

5.2 唯一SPNE的推导

利用平稳性(stationarity):每次轮到参与人1提议,博弈结构完全相同。设均衡中参与人1获得份额 $x^$,参与人2获得 $1-x^$。

参与人2的接受条件:参与人1提议参与人2获得 $y$,参与人2接受当且仅当

$$y \geq \delta_2 \cdot (1 - x^*)$$

($\delta_2 (1-x^*)$ 是等一期轮到参与人2提议时能获得的贴现效用)

参与人1的最优提议:给参与人2恰好使其无差异的份额 $y^* = \delta_2(1-x^)$,自己获 $1 - \delta_2(1-x^)$。

自相似性:参与人1在第1期提议中获得 $x^* = 1 - \delta_2(1-x^*)$,整理:

$$x^(1 - \delta_2) = 1 - \delta_2 \implies x^ = \frac{1-\delta_2}{1 - \delta_1 \delta_2}$$

5.3 均衡结论

唯一SPNE:参与人1立即提议 $\left(\frac{1-\delta_2}{1-\delta_1\delta_2},; \frac{\delta_2(1-\delta_1)}{1-\delta_1\delta_2}\right)$,参与人2接受。

当 $\delta_1 = \delta_2 = \delta$ 时

$$x^* = \frac{1}{1+\delta}, \quad 1-x^* = \frac{\delta}{1+\delta}$$

当 $\delta \to 1$(双方均非常耐心)时,有 $x^* \to \frac{1}{2}$——近似平等分配。先动优势随耐心增加而减小

含义:折现因子代表谈判耐心或"继续谈判的成本"。耐心越相近,谈判结果越对称;一方明显更不耐心,则另一方获益更大。


6 多阶段博弈的SPNE计算方法

步骤

  1. 识别所有子博弈:找出满足子博弈定义的所有节/子树
  2. 从最小子博弈解起:先对"叶子层"子博弈求NE
  3. 以子博弈均衡结果代替子博弈:将每个已解子博弈用其均衡收益替代,缩减博弈树
  4. 递推至根:对缩减后的博弈再求NE,直至根节点

注意:SPNE不排除博弈均衡路径之外(off-path)的"任意"行为——只要实际均衡路径不受影响,离均衡行为规定可能不严格最优,只需在信息集上有合理解释即可(但颤抖手完美等更强精炼要求更多)。


7 小结与延伸

子博弈精炼均衡的核心贡献是引入了序贯理性(sequential rationality):在博弈的每个时点、每个信息集上,参与人的行为都必须是最优的——不仅在均衡路径上,在任何可达的离均衡子博弈上亦然。这消除了不可置信的威胁和承诺。

但SPNE仍有局限:当信息集不是单点时(不完美信息),子博弈定义使得许多"直觉上不合理"的均衡无法被排除,需要进一步精炼(如序贯均衡、完美贝叶斯均衡),这正是信号博弈和不完全信息博弈分析的出发点。


参考文献

  • Selten, R. (1965). Spieltheoretische Behandlung eines Oligopolmodells mit Nachfrageträgheit. Zeitschrift für die gesamte Staatswissenschaft, 121, 301–324.
  • Selten, R. (1978). The chain store paradox. Theory and Decision, 9(2), 127–159.
  • Rubinstein, A. (1982). Perfect equilibrium in a bargaining model. Econometrica, 50(1), 97–109.
  • Güth, W., Schmittberger, R., & Schwarze, B. (1982). An experimental analysis of ultimatum bargaining. Journal of Economic Behavior & Organization, 3(4), 367–388.
  • Fudenberg, D., & Tirole, J. (1991). Game Theory. MIT Press.