Page QiView

重复博弈、合作均衡与Folk定理

重复博弈、合作均衡与Folk定理

1 重复博弈的动机

在单次囚徒困境中,$(D, D)$ 是唯一纳什均衡,合作无法维持。但现实中,持续交易的企业保持价格协定、政府维持军备控制条约、邻居之间互相帮忙……这些合作行为在长期关系中广泛存在。

重复博弈(repeated game)是研究长期关系与合作涌现的核心框架。其核心洞见是:对未来的关心(高折现因子)使当期欺骗行为受到未来惩罚的威胁约束,从而支持合作。


2 重复博弈的形式化框架

2.1 阶段博弈(stage game)

给定一个阶段博弈 $G = \langle N, {A_i}{i \in N}, {u_i}{i \in N}\rangle$,其中 $A_i$ 是参与人 $i$ 的行动集。

2.2 有限重复与无限重复

$T$ 次有限重复博弈 $G^T$:博弈进行 $T$ 期,每期后双方观察所有历史行动,收益为各期收益之和(可加折现)。

无限重复博弈 $G^\infty(\delta)$:博弈进行无限期,参与人 $i$ 的贴现总收益(discounted sum of payoffs)为

$$U_i = \sum_{t=0}^{\infty} \delta^t u_i(a^t)$$

其中 $\delta \in (0, 1)$ 是折现因子(discount factor)。也可用**平均贴现收益(average discounted payoff)**表示:

$$\bar{U}i = (1-\delta) \sum{t=0}^{\infty} \delta^t u_i(a^t)$$

折现因子的三种解释:

  1. 时间偏好:$\delta = \frac{1}{1+r}$,$r$ 为利率
  2. 持续概率:关系在任意一期以概率 $1-\delta$ 结束
  3. 期间长度:更短的互动周期对应更高的 $\delta$(如每月互动 vs 每年互动)

2.3 历史与策略

$t$ 期的历史 $h^t = (a^0, a^1, \ldots, a^{t-1})$ 是所有期的行动记录。

参与人 $i$ 在重复博弈中的策略 $\sigma_i$ 是将每期历史映射到(混合)行动的函数:$\sigma_i : \bigcup_{t=0}^\infty H^t \to \Delta(A_i)$。


3 有限重复博弈

3.1 有限重复的逆向归纳

定理:若阶段博弈 $G$ 有唯一纳什均衡 $a^$,则对任意 $T < \infty$,$T$ 次重复博弈 $G^T$ 的唯一SPNE结果是每期都重复 $a^$。

证明:逆向归纳。第 $T$ 期是单次博弈,SPNE需在该子博弈中选纳什均衡行动 $a^$。给定第 $T$ 期行动已确定,第 $T-1$ 期的"未来奖惩"不变,其子博弈也需选 $a^$。依此类推。$\blacksquare$

囚徒困境的含义:无论重复多少次(只要有限),$(D, D)$ 在每一期都是SPNE预测——合作无法通过有限次博弈维持,因为"最后一期"无未来惩罚,倒推消除了所有合作激励。

3.2 有限重复中合作的可能性

当阶段博弈有多个纳什均衡时,有限重复中可以出现非均衡行动:可以用"未来将协调至好均衡"奖励合作、“协调至坏均衡"惩罚背叛。

示例(Benoit & Krishna, 1985):若阶段博弈有一好均衡 $a^g$(所有人偏好)和一坏均衡 $a^b$,则在足够长的有限重复博弈中,可支持前 $T-K$ 期的合作行为:先以合作为条件,最后几期"奖励"合作方以 $a^g$ 而非 $a^b$。


4 无限重复博弈与触发策略

4.1 冷酷触发策略(Grim Trigger Strategy)

在无限重复囚徒困境中,定义如下策略:

$$\sigma_i^{\text{Grim}}(h^t) = \begin{cases} C & \text{若 } h^t \text{ 中从未出现背叛} \ D & \text{否则(永久惩罚)} \end{cases}$$

问题:使 $(\sigma^{\text{Grim}}, \sigma^{\text{Grim}})$ 成为SPNE(纳什均衡)所需的条件?

4.2 囚徒困境中合作的条件

囚徒困境收益:合作 $c$,背叛 $d$(当对方合作时),互相背叛 $n$,被对方背叛 $s$。

标准设定:$d > c > n > s$(且 $2c > d + s$,即合作是社会最优的)。

均衡路径收益(双方均合作):

$$V_{\text{合作}} = \frac{c}{1-\delta}$$

背叛的一次性收益:在对方合作时,我背叛得 $d$,此后永久惩罚下双方均背叛,每期得 $n$:

$$V_{\text{背叛}} = d + \frac{\delta n}{1-\delta}$$

合作支持条件(no deviation condition)

$$\frac{c}{1-\delta} \geq d + \frac{\delta n}{1-\delta}$$

整理:

$$c \geq (1-\delta) \cdot d + \delta \cdot n$$ $$c - n \geq (1-\delta)(d - n)$$ $$\delta \geq \frac{d - c}{d - n}$$

含义:当折现因子 $\delta \geq \delta^* = \frac{d-c}{d-n}$ 时,冷酷触发策略可支持合作均衡。参与人越有耐心($\delta$ 越高),背叛的短期收益相对于长期损失越不划算,合作越容易维持。

对囚徒困境 $(d=5, c=3, n=1, s=0)$:$\delta^* = \frac{5-3}{5-1} = \frac{1}{2}$,即当 $\delta \geq 1/2$ 时,合作是SPNE。

4.3 以牙还牙策略(Tit-for-Tat, TFT)

Axelrod(1984)的著名计算机竞赛中,以下简单策略表现最优:

$$\sigma^{\text{TFT}}(h^t) = \begin{cases} C & t = 0 \textit{(初始合作)} \ \text{对方上期选择} & t > 0 \end{cases}$$

性质:TFT——友善(初始合作)、可激怒(立即惩罚背叛)、宽容(对方重新合作后原谅)、简单(可识别)。

TFT作为纳什均衡的条件

$$c + \delta c + \delta^2 c + \ldots \geq d + \delta n + \delta^2 c + \delta^3 c + \ldots$$

(背叛一期获益 $d-c$,下期被惩罚损失 $c-n$,第三期恢复合作)

$$c \cdot \frac{1}{1-\delta} \geq d + \delta n + \frac{\delta^2 c}{1-\delta}$$ $$\frac{c(1-\delta^2)}{1-\delta} \geq d + \delta n - ? \Rightarrow \delta \geq \frac{d-c}{d-n}$$

有趣地,TFT和Grim Trigger要求相同的 $\delta^*$,但TFT在实验中更稳健——它在非均衡路径上也保持一定合理性。


5 Folk定理

5.1 可行可控的(可强制的)收益集

个人理性约束

$$\underline{v}i = \min{\sigma_{-i}} \max_{a_i} u_i(a_i, \sigma_{-i})$$

称为参与人 $i$ 的极小极大(minmax)值——对手竭力压低 $i$ 的最大化收益。在无限重复博弈中,参与人不会接受低于 $\underline{v}_i$ 的平均收益。

可行(feasible)收益集

$$F = \text{conv}{u(a) : a \in A}$$

即阶段博弈收益向量的凸包(通过混合策略或时间平均可达到的收益集合)。

5.2 Folk定理(Folk Theorem)

定理(一般形式):若 $v = (v_1, \ldots, v_n)$ 是可行的且严格个人理性的($v_i > \underline{v}_i$ 对所有 $i$),则存在 $\bar{\delta} < 1$,使得对任意 $\delta > \bar{\delta}$,存在无限重复博弈 $G^\infty(\delta)$ 的纳什均衡,以 $v$ 为平均贴现收益。

精确版本(Fudenberg & Maskin, 1986)

若满足完全维度性条件(full dimensionality condition)($F$ 的内部在 $(n-1)$ 维上非空),则任何严格个人理性的可行收益均可通过SPNE实现(对足够高的 $\delta$)。

直觉:任何满足"参与人宁可合作也不愿被惩罚"的分配,都可通过适当的奖惩承诺在无限重复中实现。博弈论把"未来阴影”(shadow of the future)转化为合作的工具。

5.3 Folk定理的含义与局限

强大之处:解释了现实中广泛存在的合作(卡特尔、社会规范、国际协议等)——只要参与人足够有耐心。

局限:Folk定理也意味着均衡多重性被大幅扩大——几乎任何可行结果在足够耐心时都可支持。这让"重复博弈预测什么"变得不确定,需要额外的均衡选择标准。


6 不可观测行动:不完美监督下的合作

现实中,参与人的行动往往不可直接观察(如企业的成本或努力)。Abreu, Pearce & Stacchetti(1986/1990)建立了不完美公共监督(imperfect public monitoring)下的均衡理论:

公共信号:每期有公共可观测信号 $y \in Y$,其分布 $\rho(y | a)$ 由全体行动决定。

APS理论:通过"自生成集合"(self-generating sets)的固定点方法,刻画可实现的均衡集合,并分析最优惩罚路径。最佳均衡(optimal equilibrium)利用"最坏可信惩罚"(harshest credible punishment)来最大化总福利。


7 小结:重复博弈的核心洞见

情形结论
有限重复,阶段博弈有唯一NE唯一SPNE:每期重复NE(对合作无帮助)
有限重复,阶段博弈有多个NE可能支持前期非均衡行为
无限重复,$\delta < \delta^*$只有逐期纳什均衡可支持
无限重复,$\delta \geq \delta^*$广泛的合作收益可被SPNE支持(Folk定理)

实践意义:维持合作需要:(1) 长期关系(高 $\delta$);(2) 对背叛的可置信惩罚;(3) 行动可以被充分观察(监督可行性);(4) 对未来的充分关心超过当期背叛的短期利益。


参考文献

  • Aumann, R., & Shapley, L. (1976). Long-term competition: A game-theoretic analysis. Mimeo (published 1994 in Essays in Game Theory).
  • Fudenberg, D., & Maskin, E. (1986). The folk theorem in repeated games with discounting or with incomplete information. Econometrica, 54(3), 533–554.
  • Axelrod, R. (1984). The Evolution of Cooperation. Basic Books.
  • Abreu, D., Pearce, D., & Stacchetti, E. (1990). Toward a theory of discounted repeated games with imperfect monitoring. Econometrica, 58(5), 1041–1063.
  • Benoit, J.-P., & Krishna, V. (1985). Finitely repeated games. Econometrica, 53(4), 905–922.