动态博弈与子博弈精炼:序贯理性与承诺问题
1 扩展式博弈的形式化表述
静态博弈无需规定行动顺序;而动态博弈(dynamic game / extensive-form game)显式刻画时间顺序和信息传递,是分析序贯决策的规范工具。
1.1 扩展式博弈的构成要素
扩展式博弈由以下要素构成:
- 参与人集合 $N$(加上"自然" Nature,用于刻画随机事件)
- 博弈树(game tree):一棵有根的有向树,节点代表决策或终端结果
- 决策节(decision node):由某参与人采取行动
- 终端节(terminal node / outcome):博弈结束,各参与人获得收益
- 行动集 $A(v)$:决策节 $v$ 处可采取的行动集合
- 信息集(information set)$h$:参与人无法区分的决策节集合——体现信息结构
- 收益函数 $u_i : Z \to \mathbb{R}$:$Z$ 为终端节集合
完美信息博弈(perfect information game):每个信息集仅含一个节点,参与人知道历史上发生的所有行动。
不完美信息博弈(imperfect information game):存在含多个节点的信息集,某些历史不可观测。
1.2 策略的精确定义
在扩展式博弈中,参与人 $i$ 的策略是对其每个信息集指定行动的完整计划(complete contingent plan):
$$s_i : \mathcal{H}_i \to A \quad \text{s.t. } s_i(h) \in A(h) ; \forall h \in \mathcal{H}_i$$
即使某些信息集在实际博弈过程中永远不会被到达,策略也必须在那些信息集上规定行动。这一"完整性"要求看似多余,但对均衡精炼至关重要。
2 逆向归纳与子博弈精炼纳什均衡
2.1 逆向归纳法(Backward Induction)
适用条件:完美信息有限博弈(finite perfect information game)
算法:
- 找到博弈树中所有直接前驱终端节的决策节(“倒数第一层"节点)
- 在每个这样的节点处,选择使当前参与人利润最大化的行动
- 将该节点视为已解,以最大收益作为"收益”,收缩为终端节
- 对博弈树重复上述步骤,直至到达根节点
定理(Zermelo, 1913):每个有限完美信息博弈有逆向归纳解,且有唯一逆向归纳结果(当所有收益严格有别时)。
2.2 子博弈精炼纳什均衡(SPNE)
Selten(1965) 提出了子博弈精炼均衡,将逆向归纳逻辑推广到不完美信息博弈。
定义(子博弈 subgame):扩展式博弈的子博弈是一棵以某决策节 $v$ 为根的子树,满足:
- $v$ 所在信息集只包含 $v$(即 $v$ 处参与人知道博弈到了 $v$)
- 包含 $v$ 的子树中所有决策节的所有继承节均在子树内(信息集不被"割裂")
定义(SPNE):策略组合 $s^$ 是子博弈精炼纳什均衡,若 $s^$ 在每个子博弈上的限制都构成该子博弈的纳什均衡。
与逆向归纳的关系:有限完美信息博弈中,每个逆向归纳解都是SPNE;反之,每个SPNE的结果都与某个逆向归纳解一致。
3 不可置信威胁与承诺问题
3.1 最后通牒博弈(Ultimatum Game)
参与人1(提议者)提出分配 $(x, 1-x)$($x$ 是自己保留的份额,总资源为1),参与人2(响应者)接受或拒绝;若拒绝,双方均获0。
SPNE分析(通过逆向归纳):
- 第二阶段:参与人2面对提议 $x$。若 $1-x > 0$,则接受严格优于拒绝;若 $1-x = 0$,则无差异
- 第一阶段:参与人1预见到参与人2会接受任何 $x < 1$ 的提议,故提议 $x = 1 - \epsilon$(接近垄断)
唯一SPNE结果:参与人1提议 $x \approx 1$,参与人2接受(几乎独吞全部资源)。
实验结果的异常:大量实验表明,提议者通常给出约40-50%,响应者会拒绝低于20-30%的提议(Güth et al., 1982)。这挑战了纯自利的标准理论,引出了不平等厌恶(inequality aversion, Fehr & Schmidt, 1999)和互惠性(reciprocity)等行为博弈论模型。
3.2 市场进入博弈中的不可置信威胁
情形:市场中有在位者 I 和潜在进入者 E。
- 博弈树:E 先行动(进入/不进入),I 后行动(打价格战/接受)
收益矩阵(格式:E的收益, I的收益):
| I 的行动 → | 打价格战 | 接受共存 |
|---|---|---|
| E 进入 | $(-1, -1)$ | $(1, 1)$ |
| E 不进入 | – | $(0, 3)$ |
SPNE分析:
- 若 E 进入,I 的最优反应是接受共存($1 > -1$)——打价格战不可置信
- 预见到此,E 选择进入($1 > 0$)
唯一SPNE:E 进入,I 接受共存。
不是SPNE的纳什均衡:策略组合"E不进入,I若E进入则打价格战"也是纳什均衡(给定I会打价格战,E选择不进入是最优;给定E不进入,I的策略无关紧要),但它依赖于不可置信的离均衡路径威胁,故不是SPNE。
4 连锁店悖论(Chain Store Paradox)
4.1 情形描述
Selten (1978) 提出的著名悖论:一家连锁店(in位者M)在 $n = 20$ 个城市经营,第 $k$ 个城市依次面对潜在进入者。若某进入者进入,M可选择合作(扩价共存)或打价格战。
单次博弈收益(进入者E, 连锁店M):
- M打价格战:$(E: -2, M: -1)$
- M合作:$(E: 1, M: 1)$
- E不进入(M维持垄断):$(E: 0, M: 2)$
4.2 逆向归纳的悖论
逆向归纳预测:
- 在**最后一个(第20个)**市场,M绝不会打价格战(因后续无博弈,合作收益1 > 打价格战 −1)
- 预见到此,第20个进入者一定进入
- 递推到第19个市场……对M没有威慑价值,同样进入
- 所有进入者都进入
现实直觉的反叛:若M在前期打价格战,建立"强硬"声誉,后期进入者可能被威慑。这种逻辑在有限重复博弈中被逆向归纳否定——但在不完全信息下(进入者不确定M是"强硬型"还是"弱型"),声誉效应可以恢复(详见不完全信息博弈篇)。
Selten 的"亲测直觉":Selten 坦言,即便他推导出了逆向归纳结论,作为商人他仍会在前期打价格战。这一悖论促发了行为博弈论和有限理性建模的发展。
5 谈判博弈:Rubinstein交替出价模型
5.1 模型设定(Rubinstein, 1982)
两方参与人谈判分配"馅饼"(总量为1),以交替出价方式进行无限期讨价还价:
- 奇数期参与人1提议,参与人2接受/拒绝
- 偶数期参与人2提议,参与人1接受/拒绝
- 若接受,成交;若永远拒绝,双方均得0
- 折现因子:参与人 $i$ 的 $\delta_i \in (0, 1)$(每等待一期折损效用)
5.2 唯一SPNE的推导
利用平稳性(stationarity):每次轮到参与人1提议,博弈结构完全相同。设均衡中参与人1获得份额 $x^$,参与人2获得 $1-x^$。
参与人2的接受条件:参与人1提议参与人2获得 $y$,参与人2接受当且仅当
$$y \geq \delta_2 \cdot (1 - x^*)$$
($\delta_2 (1-x^*)$ 是等一期轮到参与人2提议时能获得的贴现效用)
参与人1的最优提议:给参与人2恰好使其无差异的份额 $y^* = \delta_2(1-x^)$,自己获 $1 - \delta_2(1-x^)$。
自相似性:参与人1在第1期提议中获得 $x^* = 1 - \delta_2(1-x^*)$,整理:
$$x^(1 - \delta_2) = 1 - \delta_2 \implies x^ = \frac{1-\delta_2}{1 - \delta_1 \delta_2}$$
5.3 均衡结论
唯一SPNE:参与人1立即提议 $\left(\frac{1-\delta_2}{1-\delta_1\delta_2},; \frac{\delta_2(1-\delta_1)}{1-\delta_1\delta_2}\right)$,参与人2接受。
当 $\delta_1 = \delta_2 = \delta$ 时:
$$x^* = \frac{1}{1+\delta}, \quad 1-x^* = \frac{\delta}{1+\delta}$$
当 $\delta \to 1$(双方均非常耐心)时,有 $x^* \to \frac{1}{2}$——近似平等分配。先动优势随耐心增加而减小。
含义:折现因子代表谈判耐心或"继续谈判的成本"。耐心越相近,谈判结果越对称;一方明显更不耐心,则另一方获益更大。
6 多阶段博弈的SPNE计算方法
步骤:
- 识别所有子博弈:找出满足子博弈定义的所有节/子树
- 从最小子博弈解起:先对"叶子层"子博弈求NE
- 以子博弈均衡结果代替子博弈:将每个已解子博弈用其均衡收益替代,缩减博弈树
- 递推至根:对缩减后的博弈再求NE,直至根节点
注意:SPNE不排除博弈均衡路径之外(off-path)的"任意"行为——只要实际均衡路径不受影响,离均衡行为规定可能不严格最优,只需在信息集上有合理解释即可(但颤抖手完美等更强精炼要求更多)。
7 小结与延伸
子博弈精炼均衡的核心贡献是引入了序贯理性(sequential rationality):在博弈的每个时点、每个信息集上,参与人的行为都必须是最优的——不仅在均衡路径上,在任何可达的离均衡子博弈上亦然。这消除了不可置信的威胁和承诺。
但SPNE仍有局限:当信息集不是单点时(不完美信息),子博弈定义使得许多"直觉上不合理"的均衡无法被排除,需要进一步精炼(如序贯均衡、完美贝叶斯均衡),这正是信号博弈和不完全信息博弈分析的出发点。
参考文献
- Selten, R. (1965). Spieltheoretische Behandlung eines Oligopolmodells mit Nachfrageträgheit. Zeitschrift für die gesamte Staatswissenschaft, 121, 301–324.
- Selten, R. (1978). The chain store paradox. Theory and Decision, 9(2), 127–159.
- Rubinstein, A. (1982). Perfect equilibrium in a bargaining model. Econometrica, 50(1), 97–109.
- Güth, W., Schmittberger, R., & Schwarze, B. (1982). An experimental analysis of ultimatum bargaining. Journal of Economic Behavior & Organization, 3(4), 367–388.
- Fudenberg, D., & Tirole, J. (1991). Game Theory. MIT Press.