Page QiView

完全信息静态博弈:纳什均衡的存在、计算与精炼

完全信息静态博弈:纳什均衡的存在、计算与精炼

1 博弈的形式化表述

一个标准式博弈(normal-form game / strategic-form game)由三元组 $G = \langle N, {S_i}{i \in N}, {u_i}{i \in N} \rangle$ 定义:

  • $N = {1, 2, \ldots, n}$:参与人(player)集合
  • $S_i$:参与人 $i$ 的策略空间(strategy space),策略组合空间 $S = \prod_{i \in N} S_i$
  • $u_i : S \to \mathbb{R}$:参与人 $i$ 的收益函数(payoff function / utility function)

博弈信息结构的基本假设(完全信息静态博弈):

  1. 完全信息:所有参与人的策略空间和收益函数均为公共知识(common knowledge)
  2. 同时行动(或等价地,行动前无法观察他人选择)
  3. 理性:每个参与人追求自身期望收益最大化,且这一点也是公共知识

公共知识的定义:命题 $p$ 是公共知识当且仅当:所有人知道 $p$,所有人知道所有人知道 $p$,……以无穷后退的方式成立。这一条件由 David Lewis(1969)和 Robert Aumann(1976)正式化。


2 优势策略与可理性化策略

2.1 严格优势策略

策略 $s_i’ \in S_i$ 严格优势于 $s_i \in S_i$,若对所有 $s_{-i} \in S_{-i}$,有

$$u_i(s_i’, s_{-i}) > u_i(s_i, s_{-i})$$

此时称 $s_i$ 是参与人 $i$ 的严格劣势策略(strictly dominated strategy)。理性参与人永远不会选择严格劣势策略。

弱优势(weak dominance)将上式中的严格不等号改为 $\geq$,且至少存在一个 $s_{-i}$ 使严格不等号成立。

2.2 迭代消除严格劣势策略(IESDS)

方法:重复移除各参与人的严格劣势策略,直至无策略可消除。最终残余集合 $S^{\infty}$ 称为理性化策略集(rationalizable strategies)。

IESDS的关键性质

  • 消除顺序无关紧要(order-independence)——严格劣势策略的消除结论与操作顺序无关(Moulin, 1984)
  • $S^{\infty}$ 可能包含多个策略组合,不一定唯一
  • $S^{\infty}$ 等价于可理性化策略集(Bernheim, 1984; Pearce, 1984)

经典案例:囚徒困境

合作 C背叛 D
合作 C$(3, 3)$$(0, 5)$
背叛 D$(5, 0)$$(1, 1)$

对参与人1而言:无论对方选何,选 $D$ 的收益严格大于选 $C$($5>3$ 且 $1>0$)。故 $C$ 被严格优势消除。对参与人2对称。IESDS得唯一结果 $(D, D)$。

2.3 弱优势消除的陷阱

弱优势消除不具备顺序无关性,不同的消除顺序可能得出不同的残余集。这是弱优势劣于严格优势的关键所在。


3 纳什均衡

3.1 定义

定义(纳什均衡):策略组合 $s^* = (s_1^, \ldots, s_n^) \in S$ 是一个纳什均衡(Nash Equilibrium, NE),若对所有 $i \in N$ 和所有 $s_i \in S_i$:

$$u_i(s_i^, s_{-i}^) \geq u_i(s_i, s_{-i}^*)$$

等价地,$s_i^$ 是对 $s_{-i}^$ 的最优反应(best response):$s_i^* \in BR_i(s_{-i}^*)$,其中

$$BR_i(s_{-i}) = \arg\max_{s_i \in S_i} u_i(s_i, s_{-i})$$

直觉解释:纳什均衡是所有参与人同时"没有偏离动机"的策略组合。给定他人策略,每人的选择已是最优反应,因此没有任何参与人愿意单方面改变。

自我实现的预测(self-fulfilling prophecy):若所有参与人相信均衡将发生,那么均衡确实会发生——纳什均衡是唯一满足这一性质的策略组合概念。

3.2 存在性:纳什定理

定理(Nash, 1950, 1951):任何有限博弈($N$ 和所有 $S_i$ 均为有限集)至少存在一个混合策略纳什均衡

证明思路(利用不动点定理):

令 $\Delta(S_i)$ 为 $S_i$ 上的概率分布集(混合策略空间),$\sigma_i \in \Delta(S_i)$。定义如下对应(correspondence):

$$\Phi(\sigma) = \prod_{i=1}^{n} BR_i(\sigma_{-i})$$

需要证明:

  1. $\Phi$ 将凸紧集 $\prod_i \Delta(S_i)$ 映射到自身
  2. $\Phi(\sigma)$ 对每个 $\sigma$ 是非空凸集
  3. $\Phi$ 有上半连续(upper hemicontinuous)的图

满足上述条件后,Kakutani(1941)不动点定理保证存在 $\sigma^$ 使得 $\sigma^ \in \Phi(\sigma^*)$,即混合策略纳什均衡。$\blacksquare$

关键推论:若博弈存在有限个纯策略均衡和混合策略均衡,总数(计重数)通常为奇数(Wilson, 1971)。

3.3 纯策略纳什均衡的计算

方法:最优反应法

对 2×2 双矩阵博弈,计算步骤:

  1. 对参与人1,在每一列找行中的最大值(标记)
  2. 对参与人2,在每一行找列中的最大值(标记)
  3. 双方都被标记的格子即为纯策略纳什均衡

示例:性别战(Battle of the Sexes)

足球 F芭蕾 B
足球 F$(2, 1)$$(0, 0)$
芭蕾 B$(0, 0)$$(1, 2)$
  • 参与人1在列 F 选 F(收益2>0),在列 B 选 B(收益1>0)
  • 参与人2在行 F 选 F(收益1>0),在行 B 选 B(收益2>0)
  • 纯策略NE:$(F, F)$ 和 $(B, B)$——均衡多重性(multiple equilibria)

4 混合策略纳什均衡

4.1 混合策略的定义

纯策略:确定性选择,$s_i \in S_i$

混合策略:$\sigma_i \in \Delta(S_i)$,即 $S_i$ 上的概率分布。若 $S_i = {a_1, \ldots, a_k}$,则 $\sigma_i = (p_1, \ldots, p_k)$,$p_j \geq 0$,$\sum_j p_j = 1$。

期望收益

$$u_i(\sigma) = \sum_{s \in S} \left(\prod_{j=1}^{n} \sigma_j(s_j)\right) u_i(s)$$

4.2 混合策略均衡的计算原则

无差异原则(indifference principle):若参与人 $i$ 在均衡中以正概率混合两个或多个纯策略,则这些纯策略在对方的均衡混合策略下必须给 $i$ 带来相同的期望收益

推导:若 $u_i(a, \sigma_{-i}^) > u_i(b, \sigma_{-i}^)$,则参与人 $i$ 会将所有权重置于 $a$,不会给 $b$ 正概率。故混合时两者收益相等。

4.3 计算示例:性别战的混合策略均衡

设参与人1以概率 $p$ 选 F,参与人2以概率 $q$ 选 F。

参与人2的无差异条件(对参与人2而言,F 和 B 收益相等):

$$u_2(F \mid \sigma_1) = u_2(B \mid \sigma_1)$$ $$p \cdot 1 + (1-p) \cdot 0 = p \cdot 0 + (1-p) \cdot 2$$ $$p = 2 - 2p \implies p = \frac{2}{3}$$

参与人1的无差异条件

$$q \cdot 2 + (1-q) \cdot 0 = q \cdot 0 + (1-q) \cdot 1$$ $$2q = 1 - q \implies q = \frac{1}{3}$$

混合策略均衡:$\sigma^* = \left(\frac{2}{3}, \frac{1}{3} ; \frac{1}{3}, \frac{2}{3}\right)$

期望收益:$u_1 = \frac{2}{3} \cdot \frac{2}{3} \cdot 2 + \ldots = \frac{2}{3}$,$u_2 = \frac{2}{3}$

性别战共有三个纳什均衡:$(F,F)$、$(B,B)$ 和上述混合策略均衡。

4.4 混合策略的合理解释

混合策略均衡的直觉解释常令人困惑。三种主流解读:

  1. 随机化的理性化:在对手无法预测自己行动的情况下,随机化具有策略价值(如足球点球博弈)
  2. 频率解释(population interpretation):大量同质参与人的策略分布,而非单个参与人的随机化
  3. 信念的纯化(Harsanyi purification):混合策略均衡是完全信息博弈的极限,当每个参与人对自身收益有微小私有信息时,纯策略均衡近似混合策略均衡(Harsanyi, 1973)

5 均衡选择问题

当博弈存在多个纳什均衡时,需要额外标准进行均衡选择(equilibrium selection)。

5.1 占优均衡(Dominant Equilibrium)

若某纳什均衡由每个参与人的占优策略构成(如囚徒困境的 $(D,D)$),则该均衡具有特殊的稳健性,不依赖于均衡信念。

5.2 帕累托上策均衡(Pareto-Superior Equilibrium)

若均衡 $s^{}$ 对每个参与人的收益都弱优于(且至少对一人严格优于)均衡 $s^*$,则 $s^{}$ 帕累托优于 $s^*$。协调博弈的分析通常优先选择帕累托上策。

5.3 风险优势(Risk Dominance)

Harsanyi & Selten(1988)提出,在 2×2 博弈中,若

$$[u_1(s_1^, s_1^) - u_1(s_1’, s_1^)] \cdot [u_2(s_1^, s_1^) - u_2(s_1^, s_1’)] > [u_1(s_1’, s_1’) - u_1(s_1^, s_1’)] \cdot [u_2(s_1’, s_1’) - u_2(s_1’^, s_1’)]$$

则均衡 $(s_1^, s_1^)$ 风险优势于 $(s_1’, s_1’)$。风险优势均衡是对对方策略不确定时的"更安全"选择。

5.4 颤抖手完美均衡

定义(Selten, 1975):策略组合 $\sigma^$ 是颤抖手完美均衡(trembling-hand perfect equilibrium),若存在序列 ${\epsilon_k} \to 0$ 使得:对每个 $k$,存在完全混合策略均衡 $\sigma^k$(所有纯策略均以至少 $\epsilon_k$ 的概率被选),且 $\sigma^k \to \sigma^$。

颤抖手完美均衡排除了某些"不合理"的纳什均衡——那些仅在对手绝不犯错时才是最优的策略。


6 应用:经典博弈模型

6.1 百分比博弈(Percentage Beauty Contest)

每个参与人从 $[0, 100]$ 中选一个数,最接近所有人选数平均值的2/3者获胜。若所有人选 $x$,则目标为 $\frac{2}{3}x$,偏差为零需要 $x = \frac{2}{3}x$,即 $x = 0$。

此博弈有唯一纳什均衡:所有人选 $0$。但通过层级推理(level-k reasoning)可解释实验中观察到的分布:

  • Level-0:随机选,均值约50
  • Level-1:猜Level-0选50,选 $\frac{2}{3} \cdot 50 \approx 33$
  • Level-2:猜Level-1选33,选 $\frac{2}{3} \cdot 33 \approx 22$
  • Level-$k$:$50 \cdot \left(\frac{2}{3}\right)^k \to 0$

6.2 公共噪声博弈(Public Goods Game)

$n$ 个参与人,每人拥有禀赋 $e$,选择贡献 $g_i \in [0, e]$。公共品总量为 $G = \sum_i g_i$,每人从 $G$ 获益 $r \cdot G / n$($r > 1$ 为回报率)。个人收益:

$$u_i(g_i, G) = e - g_i + r \cdot \frac{G}{n} = e - g_i + \frac{r}{n}\left(g_i + \sum_{j \neq i} g_j\right)$$

当 $r < n$ 时,$\frac{r}{n} < 1$,每增加一单位贡献个人损失 $1 - \frac{r}{n} > 0$,故不贡献 $(g_i = 0)$ 是严格优势策略,纳什均衡为 $(0, 0, \ldots, 0)$——显著低于帕累托最优 $(e, e, \ldots, e)$。


7 小结:静态博弈的核心要点

概念定义关键词核心含义
严格劣势策略被另一策略严格优势理性参与人从不选择
IESDS 残余集迭代消除严格劣势的剩余等价于可理性化策略集
纳什均衡最优反应的不动点无参与人有单方面偏离动机
混合策略均衡无差异原则确定概率有限博弈必有混合策略均衡
颤抖手完美均衡稳健于微小随机误差较强的均衡精炼

静态博弈的理论框架在经济学、政治科学和生物学中有广泛应用,但现实决策往往涉及时间顺序和信息更新,这促使我们转向动态博弈理论。


参考文献

  • Nash, J. (1950). Equilibrium points in n-person games. PNAS, 36(1), 48–49.
  • Nash, J. (1951). Non-cooperative games. Annals of Mathematics, 54(2), 286–295.
  • Harsanyi, J., & Selten, R. (1988). A General Theory of Equilibrium Selection in Games. MIT Press.
  • Bernheim, D. (1984). Rationalizable strategic behavior. Econometrica, 52(4), 1007–1028.
  • Selten, R. (1975). Reexamination of the perfectness concept for equilibrium points in extensive games. International Journal of Game Theory, 4(1), 25–55.