重复博弈、合作均衡与Folk定理
1 重复博弈的动机
在单次囚徒困境中,$(D, D)$ 是唯一纳什均衡,合作无法维持。但现实中,持续交易的企业保持价格协定、政府维持军备控制条约、邻居之间互相帮忙……这些合作行为在长期关系中广泛存在。
重复博弈(repeated game)是研究长期关系与合作涌现的核心框架。其核心洞见是:对未来的关心(高折现因子)使当期欺骗行为受到未来惩罚的威胁约束,从而支持合作。
2 重复博弈的形式化框架
2.1 阶段博弈(stage game)
给定一个阶段博弈 $G = \langle N, {A_i}{i \in N}, {u_i}{i \in N}\rangle$,其中 $A_i$ 是参与人 $i$ 的行动集。
2.2 有限重复与无限重复
$T$ 次有限重复博弈 $G^T$:博弈进行 $T$ 期,每期后双方观察所有历史行动,收益为各期收益之和(可加折现)。
无限重复博弈 $G^\infty(\delta)$:博弈进行无限期,参与人 $i$ 的贴现总收益(discounted sum of payoffs)为
$$U_i = \sum_{t=0}^{\infty} \delta^t u_i(a^t)$$
其中 $\delta \in (0, 1)$ 是折现因子(discount factor)。也可用**平均贴现收益(average discounted payoff)**表示:
$$\bar{U}i = (1-\delta) \sum{t=0}^{\infty} \delta^t u_i(a^t)$$
折现因子的三种解释:
- 时间偏好:$\delta = \frac{1}{1+r}$,$r$ 为利率
- 持续概率:关系在任意一期以概率 $1-\delta$ 结束
- 期间长度:更短的互动周期对应更高的 $\delta$(如每月互动 vs 每年互动)
2.3 历史与策略
$t$ 期的历史 $h^t = (a^0, a^1, \ldots, a^{t-1})$ 是所有期的行动记录。
参与人 $i$ 在重复博弈中的策略 $\sigma_i$ 是将每期历史映射到(混合)行动的函数:$\sigma_i : \bigcup_{t=0}^\infty H^t \to \Delta(A_i)$。
3 有限重复博弈
3.1 有限重复的逆向归纳
定理:若阶段博弈 $G$ 有唯一纳什均衡 $a^$,则对任意 $T < \infty$,$T$ 次重复博弈 $G^T$ 的唯一SPNE结果是每期都重复 $a^$。
证明:逆向归纳。第 $T$ 期是单次博弈,SPNE需在该子博弈中选纳什均衡行动 $a^$。给定第 $T$ 期行动已确定,第 $T-1$ 期的"未来奖惩"不变,其子博弈也需选 $a^$。依此类推。$\blacksquare$
囚徒困境的含义:无论重复多少次(只要有限),$(D, D)$ 在每一期都是SPNE预测——合作无法通过有限次博弈维持,因为"最后一期"无未来惩罚,倒推消除了所有合作激励。
3.2 有限重复中合作的可能性
当阶段博弈有多个纳什均衡时,有限重复中可以出现非均衡行动:可以用"未来将协调至好均衡"奖励合作、“协调至坏均衡"惩罚背叛。
示例(Benoit & Krishna, 1985):若阶段博弈有一好均衡 $a^g$(所有人偏好)和一坏均衡 $a^b$,则在足够长的有限重复博弈中,可支持前 $T-K$ 期的合作行为:先以合作为条件,最后几期"奖励"合作方以 $a^g$ 而非 $a^b$。
4 无限重复博弈与触发策略
4.1 冷酷触发策略(Grim Trigger Strategy)
在无限重复囚徒困境中,定义如下策略:
$$\sigma_i^{\text{Grim}}(h^t) = \begin{cases} C & \text{若 } h^t \text{ 中从未出现背叛} \ D & \text{否则(永久惩罚)} \end{cases}$$
问题:使 $(\sigma^{\text{Grim}}, \sigma^{\text{Grim}})$ 成为SPNE(纳什均衡)所需的条件?
4.2 囚徒困境中合作的条件
囚徒困境收益:合作 $c$,背叛 $d$(当对方合作时),互相背叛 $n$,被对方背叛 $s$。
标准设定:$d > c > n > s$(且 $2c > d + s$,即合作是社会最优的)。
均衡路径收益(双方均合作):
$$V_{\text{合作}} = \frac{c}{1-\delta}$$
背叛的一次性收益:在对方合作时,我背叛得 $d$,此后永久惩罚下双方均背叛,每期得 $n$:
$$V_{\text{背叛}} = d + \frac{\delta n}{1-\delta}$$
合作支持条件(no deviation condition):
$$\frac{c}{1-\delta} \geq d + \frac{\delta n}{1-\delta}$$
整理:
$$c \geq (1-\delta) \cdot d + \delta \cdot n$$ $$c - n \geq (1-\delta)(d - n)$$ $$\delta \geq \frac{d - c}{d - n}$$
含义:当折现因子 $\delta \geq \delta^* = \frac{d-c}{d-n}$ 时,冷酷触发策略可支持合作均衡。参与人越有耐心($\delta$ 越高),背叛的短期收益相对于长期损失越不划算,合作越容易维持。
对囚徒困境 $(d=5, c=3, n=1, s=0)$:$\delta^* = \frac{5-3}{5-1} = \frac{1}{2}$,即当 $\delta \geq 1/2$ 时,合作是SPNE。
4.3 以牙还牙策略(Tit-for-Tat, TFT)
Axelrod(1984)的著名计算机竞赛中,以下简单策略表现最优:
$$\sigma^{\text{TFT}}(h^t) = \begin{cases} C & t = 0 \textit{(初始合作)} \ \text{对方上期选择} & t > 0 \end{cases}$$
性质:TFT——友善(初始合作)、可激怒(立即惩罚背叛)、宽容(对方重新合作后原谅)、简单(可识别)。
TFT作为纳什均衡的条件:
$$c + \delta c + \delta^2 c + \ldots \geq d + \delta n + \delta^2 c + \delta^3 c + \ldots$$
(背叛一期获益 $d-c$,下期被惩罚损失 $c-n$,第三期恢复合作)
$$c \cdot \frac{1}{1-\delta} \geq d + \delta n + \frac{\delta^2 c}{1-\delta}$$ $$\frac{c(1-\delta^2)}{1-\delta} \geq d + \delta n - ? \Rightarrow \delta \geq \frac{d-c}{d-n}$$
有趣地,TFT和Grim Trigger要求相同的 $\delta^*$,但TFT在实验中更稳健——它在非均衡路径上也保持一定合理性。
5 Folk定理
5.1 可行可控的(可强制的)收益集
个人理性约束:
$$\underline{v}i = \min{\sigma_{-i}} \max_{a_i} u_i(a_i, \sigma_{-i})$$
称为参与人 $i$ 的极小极大(minmax)值——对手竭力压低 $i$ 的最大化收益。在无限重复博弈中,参与人不会接受低于 $\underline{v}_i$ 的平均收益。
可行(feasible)收益集:
$$F = \text{conv}{u(a) : a \in A}$$
即阶段博弈收益向量的凸包(通过混合策略或时间平均可达到的收益集合)。
5.2 Folk定理(Folk Theorem)
定理(一般形式):若 $v = (v_1, \ldots, v_n)$ 是可行的且严格个人理性的($v_i > \underline{v}_i$ 对所有 $i$),则存在 $\bar{\delta} < 1$,使得对任意 $\delta > \bar{\delta}$,存在无限重复博弈 $G^\infty(\delta)$ 的纳什均衡,以 $v$ 为平均贴现收益。
精确版本(Fudenberg & Maskin, 1986):
若满足完全维度性条件(full dimensionality condition)($F$ 的内部在 $(n-1)$ 维上非空),则任何严格个人理性的可行收益均可通过SPNE实现(对足够高的 $\delta$)。
直觉:任何满足"参与人宁可合作也不愿被惩罚"的分配,都可通过适当的奖惩承诺在无限重复中实现。博弈论把"未来阴影”(shadow of the future)转化为合作的工具。
5.3 Folk定理的含义与局限
强大之处:解释了现实中广泛存在的合作(卡特尔、社会规范、国际协议等)——只要参与人足够有耐心。
局限:Folk定理也意味着均衡多重性被大幅扩大——几乎任何可行结果在足够耐心时都可支持。这让"重复博弈预测什么"变得不确定,需要额外的均衡选择标准。
6 不可观测行动:不完美监督下的合作
现实中,参与人的行动往往不可直接观察(如企业的成本或努力)。Abreu, Pearce & Stacchetti(1986/1990)建立了不完美公共监督(imperfect public monitoring)下的均衡理论:
公共信号:每期有公共可观测信号 $y \in Y$,其分布 $\rho(y | a)$ 由全体行动决定。
APS理论:通过"自生成集合"(self-generating sets)的固定点方法,刻画可实现的均衡集合,并分析最优惩罚路径。最佳均衡(optimal equilibrium)利用"最坏可信惩罚"(harshest credible punishment)来最大化总福利。
7 小结:重复博弈的核心洞见
| 情形 | 结论 |
|---|---|
| 有限重复,阶段博弈有唯一NE | 唯一SPNE:每期重复NE(对合作无帮助) |
| 有限重复,阶段博弈有多个NE | 可能支持前期非均衡行为 |
| 无限重复,$\delta < \delta^*$ | 只有逐期纳什均衡可支持 |
| 无限重复,$\delta \geq \delta^*$ | 广泛的合作收益可被SPNE支持(Folk定理) |
实践意义:维持合作需要:(1) 长期关系(高 $\delta$);(2) 对背叛的可置信惩罚;(3) 行动可以被充分观察(监督可行性);(4) 对未来的充分关心超过当期背叛的短期利益。
参考文献
- Aumann, R., & Shapley, L. (1976). Long-term competition: A game-theoretic analysis. Mimeo (published 1994 in Essays in Game Theory).
- Fudenberg, D., & Maskin, E. (1986). The folk theorem in repeated games with discounting or with incomplete information. Econometrica, 54(3), 533–554.
- Axelrod, R. (1984). The Evolution of Cooperation. Basic Books.
- Abreu, D., Pearce, D., & Stacchetti, E. (1990). Toward a theory of discounted repeated games with imperfect monitoring. Econometrica, 58(5), 1041–1063.
- Benoit, J.-P., & Krishna, V. (1985). Finitely repeated games. Econometrica, 53(4), 905–922.