动态博弈与子博弈精炼：序贯理性与承诺问题

1 扩展式博弈的形式化表述

静态博弈无需规定行动顺序；而动态博弈（dynamic game / extensive-form game）显式刻画时间顺序和信息传递，是分析序贯决策的规范工具。

1.1 扩展式博弈的构成要素

扩展式博弈由以下要素构成：

参与人集合 $N$（加上"自然" Nature，用于刻画随机事件）
博弈树（game tree）：一棵有根的有向树，节点代表决策或终端结果
- 决策节（decision node）：由某参与人采取行动
- 终端节（terminal node / outcome）：博弈结束，各参与人获得收益
行动集 $A(v)$：决策节 $v$ 处可采取的行动集合
信息集（information set）$h$：参与人无法区分的决策节集合——体现信息结构
收益函数 $u_i : Z \to \mathbb{R}$：$Z$ 为终端节集合

完美信息博弈（perfect information game）：每个信息集仅含一个节点，参与人知道历史上发生的所有行动。
不完美信息博弈（imperfect information game）：存在含多个节点的信息集，某些历史不可观测。

1.2 策略的精确定义

在扩展式博弈中，参与人 $i$ 的策略是对其每个信息集指定行动的完整计划（complete contingent plan）：

$$s_i : \mathcal{H}_i \to A \quad \text{s.t. } s_i(h) \in A(h) ; \forall h \in \mathcal{H}_i$$

即使某些信息集在实际博弈过程中永远不会被到达，策略也必须在那些信息集上规定行动。这一"完整性"要求看似多余，但对均衡精炼至关重要。

2 逆向归纳与子博弈精炼纳什均衡

2.1 逆向归纳法（Backward Induction）

适用条件：完美信息有限博弈（finite perfect information game）

算法：

找到博弈树中所有直接前驱终端节的决策节（“倒数第一层"节点）
在每个这样的节点处，选择使当前参与人利润最大化的行动
将该节点视为已解，以最大收益作为"收益”，收缩为终端节
对博弈树重复上述步骤，直至到达根节点

定理（Zermelo, 1913）：每个有限完美信息博弈有逆向归纳解，且有唯一逆向归纳结果（当所有收益严格有别时）。

2.2 子博弈精炼纳什均衡（SPNE）

Selten（1965） 提出了子博弈精炼均衡，将逆向归纳逻辑推广到不完美信息博弈。

定义（子博弈 subgame）：扩展式博弈的子博弈是一棵以某决策节 $v$ 为根的子树，满足：

$v$ 所在信息集只包含 $v$（即 $v$ 处参与人知道博弈到了 $v$）
包含 $v$ 的子树中所有决策节的所有继承节均在子树内（信息集不被"割裂"）

定义（SPNE）：策略组合 $s^$ 是子博弈精炼纳什均衡，若 $s^$ 在每个子博弈上的限制都构成该子博弈的纳什均衡。

与逆向归纳的关系：有限完美信息博弈中，每个逆向归纳解都是SPNE；反之，每个SPNE的结果都与某个逆向归纳解一致。

3 不可置信威胁与承诺问题

3.1 最后通牒博弈（Ultimatum Game）

参与人1（提议者）提出分配 $(x, 1-x)$（$x$ 是自己保留的份额，总资源为1），参与人2（响应者）接受或拒绝；若拒绝，双方均获0。

SPNE分析（通过逆向归纳）：

第二阶段：参与人2面对提议 $x$。若 $1-x > 0$，则接受严格优于拒绝；若 $1-x = 0$，则无差异
第一阶段：参与人1预见到参与人2会接受任何 $x < 1$ 的提议，故提议 $x = 1 - \epsilon$（接近垄断）

唯一SPNE结果：参与人1提议 $x \approx 1$，参与人2接受（几乎独吞全部资源）。

实验结果的异常：大量实验表明，提议者通常给出约40-50%，响应者会拒绝低于20-30%的提议（Güth et al., 1982）。这挑战了纯自利的标准理论，引出了不平等厌恶（inequality aversion, Fehr & Schmidt, 1999）和互惠性（reciprocity）等行为博弈论模型。

3.2 市场进入博弈中的不可置信威胁

情形：市场中有在位者 I 和潜在进入者 E。

博弈树：E 先行动（进入/不进入），I 后行动（打价格战/接受）

收益矩阵（格式：E的收益, I的收益）：

I 的行动 →	打价格战	接受共存
E 进入	$(-1, -1)$	$(1, 1)$
E 不进入	–	$(0, 3)$

SPNE分析：

若 E 进入，I 的最优反应是接受共存（$1 > -1$）——打价格战不可置信
预见到此，E 选择进入（$1 > 0$）

唯一SPNE：E 进入，I 接受共存。

不是SPNE的纳什均衡：策略组合"E不进入，I若E进入则打价格战"也是纳什均衡（给定I会打价格战，E选择不进入是最优；给定E不进入，I的策略无关紧要），但它依赖于不可置信的离均衡路径威胁，故不是SPNE。

4 连锁店悖论（Chain Store Paradox）

4.1 情形描述

Selten (1978) 提出的著名悖论：一家连锁店（in位者M）在 $n = 20$ 个城市经营，第 $k$ 个城市依次面对潜在进入者。若某进入者进入，M可选择合作（扩价共存）或打价格战。

单次博弈收益（进入者E, 连锁店M）：

M打价格战：$(E: -2, M: -1)$
M合作：$(E: 1, M: 1)$
E不进入（M维持垄断）：$(E: 0, M: 2)$

4.2 逆向归纳的悖论

逆向归纳预测：

在**最后一个（第20个）**市场，M绝不会打价格战（因后续无博弈，合作收益1 > 打价格战 −1）
预见到此，第20个进入者一定进入
递推到第19个市场……对M没有威慑价值，同样进入
所有进入者都进入

现实直觉的反叛：若M在前期打价格战，建立"强硬"声誉，后期进入者可能被威慑。这种逻辑在有限重复博弈中被逆向归纳否定——但在不完全信息下（进入者不确定M是"强硬型"还是"弱型"），声誉效应可以恢复（详见不完全信息博弈篇）。

Selten 的"亲测直觉"：Selten 坦言，即便他推导出了逆向归纳结论，作为商人他仍会在前期打价格战。这一悖论促发了行为博弈论和有限理性建模的发展。

5 谈判博弈：Rubinstein交替出价模型

5.1 模型设定（Rubinstein, 1982）

两方参与人谈判分配"馅饼"（总量为1），以交替出价方式进行无限期讨价还价：

奇数期参与人1提议，参与人2接受/拒绝
偶数期参与人2提议，参与人1接受/拒绝
若接受，成交；若永远拒绝，双方均得0
折现因子：参与人 $i$ 的 $\delta_i \in (0, 1)$（每等待一期折损效用）

5.2 唯一SPNE的推导

利用平稳性（stationarity）：每次轮到参与人1提议，博弈结构完全相同。设均衡中参与人1获得份额 $x^$，参与人2获得 $1-x^$。

参与人2的接受条件：参与人1提议参与人2获得 $y$，参与人2接受当且仅当

$$y \geq \delta_2 \cdot (1 - x^*)$$

（$\delta_2 (1-x^*)$ 是等一期轮到参与人2提议时能获得的贴现效用）

参与人1的最优提议：给参与人2恰好使其无差异的份额 $y^* = \delta_2(1-x^)$，自己获 $1 - \delta_2(1-x^)$。

自相似性：参与人1在第1期提议中获得 $x^* = 1 - \delta_2(1-x^*)$，整理：

$$x^(1 - \delta_2) = 1 - \delta_2 \implies x^ = \frac{1-\delta_2}{1 - \delta_1 \delta_2}$$

5.3 均衡结论

唯一SPNE：参与人1立即提议 $\left(\frac{1-\delta_2}{1-\delta_1\delta_2},; \frac{\delta_2(1-\delta_1)}{1-\delta_1\delta_2}\right)$，参与人2接受。

当 $\delta_1 = \delta_2 = \delta$ 时：

$$x^* = \frac{1}{1+\delta}, \quad 1-x^* = \frac{\delta}{1+\delta}$$

当 $\delta \to 1$（双方均非常耐心）时，有 $x^* \to \frac{1}{2}$——近似平等分配。先动优势随耐心增加而减小。

含义：折现因子代表谈判耐心或"继续谈判的成本"。耐心越相近，谈判结果越对称；一方明显更不耐心，则另一方获益更大。

6 多阶段博弈的SPNE计算方法

步骤：

识别所有子博弈：找出满足子博弈定义的所有节/子树
从最小子博弈解起：先对"叶子层"子博弈求NE
以子博弈均衡结果代替子博弈：将每个已解子博弈用其均衡收益替代，缩减博弈树
递推至根：对缩减后的博弈再求NE，直至根节点

注意：SPNE不排除博弈均衡路径之外（off-path）的"任意"行为——只要实际均衡路径不受影响，离均衡行为规定可能不严格最优，只需在信息集上有合理解释即可（但颤抖手完美等更强精炼要求更多）。

7 小结与延伸

子博弈精炼均衡的核心贡献是引入了序贯理性（sequential rationality）：在博弈的每个时点、每个信息集上，参与人的行为都必须是最优的——不仅在均衡路径上，在任何可达的离均衡子博弈上亦然。这消除了不可置信的威胁和承诺。

但SPNE仍有局限：当信息集不是单点时（不完美信息），子博弈定义使得许多"直觉上不合理"的均衡无法被排除，需要进一步精炼（如序贯均衡、完美贝叶斯均衡），这正是信号博弈和不完全信息博弈分析的出发点。

参考文献

Selten, R. (1965). Spieltheoretische Behandlung eines Oligopolmodells mit Nachfrageträgheit. Zeitschrift für die gesamte Staatswissenschaft, 121, 301–324.
Selten, R. (1978). The chain store paradox. Theory and Decision, 9(2), 127–159.
Rubinstein, A. (1982). Perfect equilibrium in a bargaining model. Econometrica, 50(1), 97–109.
Güth, W., Schmittberger, R., & Schwarze, B. (1982). An experimental analysis of ultimatum bargaining. Journal of Economic Behavior & Organization, 3(4), 367–388.
Fudenberg, D., & Tirole, J. (1991). Game Theory. MIT Press.