完全信息静态博弈：纳什均衡的存在、计算与精炼

1 博弈的形式化表述

一个标准式博弈（normal-form game / strategic-form game）由三元组 $G = \langle N, {S_i}{i \in N}, {u_i}{i \in N} \rangle$ 定义：

$N = {1, 2, \ldots, n}$：参与人（player）集合
$S_i$：参与人 $i$ 的策略空间（strategy space），策略组合空间 $S = \prod_{i \in N} S_i$
$u_i : S \to \mathbb{R}$：参与人 $i$ 的收益函数（payoff function / utility function）

博弈信息结构的基本假设（完全信息静态博弈）：

完全信息：所有参与人的策略空间和收益函数均为公共知识（common knowledge）
同时行动（或等价地，行动前无法观察他人选择）
理性：每个参与人追求自身期望收益最大化，且这一点也是公共知识

公共知识的定义：命题 $p$ 是公共知识当且仅当：所有人知道 $p$，所有人知道所有人知道 $p$，……以无穷后退的方式成立。这一条件由 David Lewis（1969）和 Robert Aumann（1976）正式化。

2 优势策略与可理性化策略

2.1 严格优势策略

策略 $s_i’ \in S_i$ 严格优势于 $s_i \in S_i$，若对所有 $s_{-i} \in S_{-i}$，有

$$u_i(s_i’, s_{-i}) > u_i(s_i, s_{-i})$$

此时称 $s_i$ 是参与人 $i$ 的严格劣势策略（strictly dominated strategy）。理性参与人永远不会选择严格劣势策略。

弱优势（weak dominance）将上式中的严格不等号改为 $\geq$，且至少存在一个 $s_{-i}$ 使严格不等号成立。

2.2 迭代消除严格劣势策略（IESDS）

方法：重复移除各参与人的严格劣势策略，直至无策略可消除。最终残余集合 $S^{\infty}$ 称为理性化策略集（rationalizable strategies）。

IESDS的关键性质：

消除顺序无关紧要（order-independence）——严格劣势策略的消除结论与操作顺序无关（Moulin, 1984）
$S^{\infty}$ 可能包含多个策略组合，不一定唯一
$S^{\infty}$ 等价于可理性化策略集（Bernheim, 1984; Pearce, 1984）

经典案例：囚徒困境

	合作 C	背叛 D
合作 C	$(3, 3)$	$(0, 5)$
背叛 D	$(5, 0)$	$(1, 1)$

对参与人1而言：无论对方选何，选 $D$ 的收益严格大于选 $C$（$5>3$ 且 $1>0$）。故 $C$ 被严格优势消除。对参与人2对称。IESDS得唯一结果 $(D, D)$。

2.3 弱优势消除的陷阱

弱优势消除不具备顺序无关性，不同的消除顺序可能得出不同的残余集。这是弱优势劣于严格优势的关键所在。

3 纳什均衡

3.1 定义

定义（纳什均衡）：策略组合 $s^* = (s_1^, \ldots, s_n^) \in S$ 是一个纳什均衡（Nash Equilibrium, NE），若对所有 $i \in N$ 和所有 $s_i \in S_i$：

$$u_i(s_i^, s_{-i}^) \geq u_i(s_i, s_{-i}^*)$$

等价地，$s_i^$ 是对 $s_{-i}^$ 的最优反应（best response）：$s_i^* \in BR_i(s_{-i}^*)$，其中

$$BR_i(s_{-i}) = \arg\max_{s_i \in S_i} u_i(s_i, s_{-i})$$

直觉解释：纳什均衡是所有参与人同时"没有偏离动机"的策略组合。给定他人策略，每人的选择已是最优反应，因此没有任何参与人愿意单方面改变。

自我实现的预测（self-fulfilling prophecy）：若所有参与人相信均衡将发生，那么均衡确实会发生——纳什均衡是唯一满足这一性质的策略组合概念。

3.2 存在性：纳什定理

定理（Nash, 1950, 1951）：任何有限博弈（$N$ 和所有 $S_i$ 均为有限集）至少存在一个混合策略纳什均衡。

证明思路（利用不动点定理）：

令 $\Delta(S_i)$ 为 $S_i$ 上的概率分布集（混合策略空间），$\sigma_i \in \Delta(S_i)$。定义如下对应（correspondence）：

$$\Phi(\sigma) = \prod_{i=1}^{n} BR_i(\sigma_{-i})$$

需要证明：

$\Phi$ 将凸紧集 $\prod_i \Delta(S_i)$ 映射到自身
$\Phi(\sigma)$ 对每个 $\sigma$ 是非空凸集
$\Phi$ 有上半连续（upper hemicontinuous）的图

满足上述条件后，Kakutani（1941）不动点定理保证存在 $\sigma^$ 使得 $\sigma^ \in \Phi(\sigma^*)$，即混合策略纳什均衡。$\blacksquare$

关键推论：若博弈存在有限个纯策略均衡和混合策略均衡，总数（计重数）通常为奇数（Wilson, 1971）。

3.3 纯策略纳什均衡的计算

方法：最优反应法

对 2×2 双矩阵博弈，计算步骤：

对参与人1，在每一列找行中的最大值（标记）
对参与人2，在每一行找列中的最大值（标记）
双方都被标记的格子即为纯策略纳什均衡

示例：性别战（Battle of the Sexes）

	足球 F	芭蕾 B
足球 F	$(2, 1)$	$(0, 0)$
芭蕾 B	$(0, 0)$	$(1, 2)$

参与人1在列 F 选 F（收益2>0），在列 B 选 B（收益1>0）
参与人2在行 F 选 F（收益1>0），在行 B 选 B（收益2>0）
纯策略NE：$(F, F)$ 和 $(B, B)$——均衡多重性（multiple equilibria）

4 混合策略纳什均衡

4.1 混合策略的定义

纯策略：确定性选择，$s_i \in S_i$

混合策略：$\sigma_i \in \Delta(S_i)$，即 $S_i$ 上的概率分布。若 $S_i = {a_1, \ldots, a_k}$，则 $\sigma_i = (p_1, \ldots, p_k)$，$p_j \geq 0$，$\sum_j p_j = 1$。

期望收益：

$$u_i(\sigma) = \sum_{s \in S} \left(\prod_{j=1}^{n} \sigma_j(s_j)\right) u_i(s)$$

4.2 混合策略均衡的计算原则

无差异原则（indifference principle）：若参与人 $i$ 在均衡中以正概率混合两个或多个纯策略，则这些纯策略在对方的均衡混合策略下必须给 $i$ 带来相同的期望收益。

推导：若 $u_i(a, \sigma_{-i}^) > u_i(b, \sigma_{-i}^)$，则参与人 $i$ 会将所有权重置于 $a$，不会给 $b$ 正概率。故混合时两者收益相等。

4.3 计算示例：性别战的混合策略均衡

设参与人1以概率 $p$ 选 F，参与人2以概率 $q$ 选 F。

参与人2的无差异条件（对参与人2而言，F 和 B 收益相等）：

$$u_2(F \mid \sigma_1) = u_2(B \mid \sigma_1)$$ $$p \cdot 1 + (1-p) \cdot 0 = p \cdot 0 + (1-p) \cdot 2$$ $$p = 2 - 2p \implies p = \frac{2}{3}$$

参与人1的无差异条件：

$$q \cdot 2 + (1-q) \cdot 0 = q \cdot 0 + (1-q) \cdot 1$$ $$2q = 1 - q \implies q = \frac{1}{3}$$

混合策略均衡：$\sigma^* = \left(\frac{2}{3}, \frac{1}{3} ; \frac{1}{3}, \frac{2}{3}\right)$

期望收益：$u_1 = \frac{2}{3} \cdot \frac{2}{3} \cdot 2 + \ldots = \frac{2}{3}$，$u_2 = \frac{2}{3}$

性别战共有三个纳什均衡：$(F,F)$、$(B,B)$ 和上述混合策略均衡。

4.4 混合策略的合理解释

混合策略均衡的直觉解释常令人困惑。三种主流解读：

随机化的理性化：在对手无法预测自己行动的情况下，随机化具有策略价值（如足球点球博弈）
频率解释（population interpretation）：大量同质参与人的策略分布，而非单个参与人的随机化
信念的纯化（Harsanyi purification）：混合策略均衡是完全信息博弈的极限，当每个参与人对自身收益有微小私有信息时，纯策略均衡近似混合策略均衡（Harsanyi, 1973）

5 均衡选择问题

当博弈存在多个纳什均衡时，需要额外标准进行均衡选择（equilibrium selection）。

5.1 占优均衡（Dominant Equilibrium）

若某纳什均衡由每个参与人的占优策略构成（如囚徒困境的 $(D,D)$），则该均衡具有特殊的稳健性，不依赖于均衡信念。

5.2 帕累托上策均衡（Pareto-Superior Equilibrium）

若均衡 $s^{}$ 对每个参与人的收益都弱优于（且至少对一人严格优于）均衡 $s^*$，则 $s^{}$ 帕累托优于 $s^*$。协调博弈的分析通常优先选择帕累托上策。

5.3 风险优势（Risk Dominance）

Harsanyi & Selten（1988）提出，在 2×2 博弈中，若

$$[u_1(s_1^, s_1^) - u_1(s_1’, s_1^)] \cdot [u_2(s_1^, s_1^) - u_2(s_1^, s_1’)] > [u_1(s_1’, s_1’) - u_1(s_1^, s_1’)] \cdot [u_2(s_1’, s_1’) - u_2(s_1’^, s_1’)]$$

则均衡 $(s_1^, s_1^)$ 风险优势于 $(s_1’, s_1’)$。风险优势均衡是对对方策略不确定时的"更安全"选择。

5.4 颤抖手完美均衡

定义（Selten, 1975）：策略组合 $\sigma^$ 是颤抖手完美均衡（trembling-hand perfect equilibrium），若存在序列 ${\epsilon_k} \to 0$ 使得：对每个 $k$，存在完全混合策略均衡 $\sigma^k$（所有纯策略均以至少 $\epsilon_k$ 的概率被选），且 $\sigma^k \to \sigma^$。

颤抖手完美均衡排除了某些"不合理"的纳什均衡——那些仅在对手绝不犯错时才是最优的策略。

6 应用：经典博弈模型

6.1 百分比博弈（Percentage Beauty Contest）

每个参与人从 $[0, 100]$ 中选一个数，最接近所有人选数平均值的2/3者获胜。若所有人选 $x$，则目标为 $\frac{2}{3}x$，偏差为零需要 $x = \frac{2}{3}x$，即 $x = 0$。

此博弈有唯一纳什均衡：所有人选 $0$。但通过层级推理（level-k reasoning）可解释实验中观察到的分布：

Level-0：随机选，均值约50
Level-1：猜Level-0选50，选 $\frac{2}{3} \cdot 50 \approx 33$
Level-2：猜Level-1选33，选 $\frac{2}{3} \cdot 33 \approx 22$
Level-$k$：$50 \cdot \left(\frac{2}{3}\right)^k \to 0$

6.2 公共噪声博弈（Public Goods Game）

$n$ 个参与人，每人拥有禀赋 $e$，选择贡献 $g_i \in [0, e]$。公共品总量为 $G = \sum_i g_i$，每人从 $G$ 获益 $r \cdot G / n$（$r > 1$ 为回报率）。个人收益：

$$u_i(g_i, G) = e - g_i + r \cdot \frac{G}{n} = e - g_i + \frac{r}{n}\left(g_i + \sum_{j \neq i} g_j\right)$$

当 $r < n$ 时，$\frac{r}{n} < 1$，每增加一单位贡献个人损失 $1 - \frac{r}{n} > 0$，故不贡献 $(g_i = 0)$ 是严格优势策略，纳什均衡为 $(0, 0, \ldots, 0)$——显著低于帕累托最优 $(e, e, \ldots, e)$。

7 小结：静态博弈的核心要点

概念	定义关键词	核心含义
严格劣势策略	被另一策略严格优势	理性参与人从不选择
IESDS 残余集	迭代消除严格劣势的剩余	等价于可理性化策略集
纳什均衡	最优反应的不动点	无参与人有单方面偏离动机
混合策略均衡	无差异原则确定概率	有限博弈必有混合策略均衡
颤抖手完美均衡	稳健于微小随机误差	较强的均衡精炼

静态博弈的理论框架在经济学、政治科学和生物学中有广泛应用，但现实决策往往涉及时间顺序和信息更新，这促使我们转向动态博弈理论。

参考文献

Nash, J. (1950). Equilibrium points in n-person games. PNAS, 36(1), 48–49.
Nash, J. (1951). Non-cooperative games. Annals of Mathematics, 54(2), 286–295.
Harsanyi, J., & Selten, R. (1988). A General Theory of Equilibrium Selection in Games. MIT Press.
Bernheim, D. (1984). Rationalizable strategic behavior. Econometrica, 52(4), 1007–1028.
Selten, R. (1975). Reexamination of the perfectness concept for equilibrium points in extensive games. International Journal of Game Theory, 4(1), 25–55.