重复博弈、合作均衡与Folk定理

1 重复博弈的动机

在单次囚徒困境中，$(D, D)$ 是唯一纳什均衡，合作无法维持。但现实中，持续交易的企业保持价格协定、政府维持军备控制条约、邻居之间互相帮忙……这些合作行为在长期关系中广泛存在。

重复博弈（repeated game）是研究长期关系与合作涌现的核心框架。其核心洞见是：对未来的关心（高折现因子）使当期欺骗行为受到未来惩罚的威胁约束，从而支持合作。

2 重复博弈的形式化框架

2.1 阶段博弈（stage game）

给定一个阶段博弈 $G = \langle N, {A_i}{i \in N}, {u_i}{i \in N}\rangle$，其中 $A_i$ 是参与人 $i$ 的行动集。

2.2 有限重复与无限重复

$T$ 次有限重复博弈 $G^T$：博弈进行 $T$ 期，每期后双方观察所有历史行动，收益为各期收益之和（可加折现）。

无限重复博弈 $G^\infty(\delta)$：博弈进行无限期，参与人 $i$ 的贴现总收益（discounted sum of payoffs）为

$$U_i = \sum_{t=0}^{\infty} \delta^t u_i(a^t)$$

其中 $\delta \in (0, 1)$ 是折现因子（discount factor）。也可用**平均贴现收益（average discounted payoff）**表示：

$$\bar{U}i = (1-\delta) \sum{t=0}^{\infty} \delta^t u_i(a^t)$$

折现因子的三种解释：

时间偏好：$\delta = \frac{1}{1+r}$，$r$ 为利率
持续概率：关系在任意一期以概率 $1-\delta$ 结束
期间长度：更短的互动周期对应更高的 $\delta$（如每月互动 vs 每年互动）

2.3 历史与策略

$t$ 期的历史 $h^t = (a^0, a^1, \ldots, a^{t-1})$ 是所有期的行动记录。

参与人 $i$ 在重复博弈中的策略 $\sigma_i$ 是将每期历史映射到（混合）行动的函数：$\sigma_i : \bigcup_{t=0}^\infty H^t \to \Delta(A_i)$。

3 有限重复博弈

3.1 有限重复的逆向归纳

定理：若阶段博弈 $G$ 有唯一纳什均衡 $a^$，则对任意 $T < \infty$，$T$ 次重复博弈 $G^T$ 的唯一SPNE结果是每期都重复 $a^$。

证明：逆向归纳。第 $T$ 期是单次博弈，SPNE需在该子博弈中选纳什均衡行动 $a^$。给定第 $T$ 期行动已确定，第 $T-1$ 期的"未来奖惩"不变，其子博弈也需选 $a^$。依此类推。$\blacksquare$

囚徒困境的含义：无论重复多少次（只要有限），$(D, D)$ 在每一期都是SPNE预测——合作无法通过有限次博弈维持，因为"最后一期"无未来惩罚，倒推消除了所有合作激励。

3.2 有限重复中合作的可能性

当阶段博弈有多个纳什均衡时，有限重复中可以出现非均衡行动：可以用"未来将协调至好均衡"奖励合作、“协调至坏均衡"惩罚背叛。

示例（Benoit & Krishna, 1985）：若阶段博弈有一好均衡 $a^g$（所有人偏好）和一坏均衡 $a^b$，则在足够长的有限重复博弈中，可支持前 $T-K$ 期的合作行为：先以合作为条件，最后几期"奖励"合作方以 $a^g$ 而非 $a^b$。

4 无限重复博弈与触发策略

4.1 冷酷触发策略（Grim Trigger Strategy）

在无限重复囚徒困境中，定义如下策略：

$$\sigma_i^{\text{Grim}}(h^t) = \begin{cases} C & \text{若 } h^t \text{ 中从未出现背叛} \ D & \text{否则（永久惩罚）} \end{cases}$$

问题：使 $(\sigma^{\text{Grim}}, \sigma^{\text{Grim}})$ 成为SPNE（纳什均衡）所需的条件？

4.2 囚徒困境中合作的条件

囚徒困境收益：合作 $c$，背叛 $d$（当对方合作时），互相背叛 $n$，被对方背叛 $s$。

标准设定：$d > c > n > s$（且 $2c > d + s$，即合作是社会最优的）。

均衡路径收益（双方均合作）：

$$V_{\text{合作}} = \frac{c}{1-\delta}$$

背叛的一次性收益：在对方合作时，我背叛得 $d$，此后永久惩罚下双方均背叛，每期得 $n$：

$$V_{\text{背叛}} = d + \frac{\delta n}{1-\delta}$$

合作支持条件（no deviation condition）：

$$\frac{c}{1-\delta} \geq d + \frac{\delta n}{1-\delta}$$

整理：

$$c \geq (1-\delta) \cdot d + \delta \cdot n$$ $$c - n \geq (1-\delta)(d - n)$$ $$\delta \geq \frac{d - c}{d - n}$$

含义：当折现因子 $\delta \geq \delta^* = \frac{d-c}{d-n}$ 时，冷酷触发策略可支持合作均衡。参与人越有耐心（$\delta$ 越高），背叛的短期收益相对于长期损失越不划算，合作越容易维持。

对囚徒困境 $(d=5, c=3, n=1, s=0)$：$\delta^* = \frac{5-3}{5-1} = \frac{1}{2}$，即当 $\delta \geq 1/2$ 时，合作是SPNE。

4.3 以牙还牙策略（Tit-for-Tat, TFT）

Axelrod（1984）的著名计算机竞赛中，以下简单策略表现最优：

$$\sigma^{\text{TFT}}(h^t) = \begin{cases} C & t = 0 \textit{（初始合作）} \ \text{对方上期选择} & t > 0 \end{cases}$$

性质：TFT——友善（初始合作）、可激怒（立即惩罚背叛）、宽容（对方重新合作后原谅）、简单（可识别）。

TFT作为纳什均衡的条件：

$$c + \delta c + \delta^2 c + \ldots \geq d + \delta n + \delta^2 c + \delta^3 c + \ldots$$

（背叛一期获益 $d-c$，下期被惩罚损失 $c-n$，第三期恢复合作）

$$c \cdot \frac{1}{1-\delta} \geq d + \delta n + \frac{\delta^2 c}{1-\delta}$$ $$\frac{c(1-\delta^2)}{1-\delta} \geq d + \delta n - ? \Rightarrow \delta \geq \frac{d-c}{d-n}$$

有趣地，TFT和Grim Trigger要求相同的 $\delta^*$，但TFT在实验中更稳健——它在非均衡路径上也保持一定合理性。

5 Folk定理

5.1 可行可控的（可强制的）收益集

个人理性约束：

$$\underline{v}i = \min{\sigma_{-i}} \max_{a_i} u_i(a_i, \sigma_{-i})$$

称为参与人 $i$ 的极小极大（minmax）值——对手竭力压低 $i$ 的最大化收益。在无限重复博弈中，参与人不会接受低于 $\underline{v}_i$ 的平均收益。

可行（feasible）收益集：

$$F = \text{conv}{u(a) : a \in A}$$

即阶段博弈收益向量的凸包（通过混合策略或时间平均可达到的收益集合）。

5.2 Folk定理（Folk Theorem）

定理（一般形式）：若 $v = (v_1, \ldots, v_n)$ 是可行的且严格个人理性的（$v_i > \underline{v}_i$ 对所有 $i$），则存在 $\bar{\delta} < 1$，使得对任意 $\delta > \bar{\delta}$，存在无限重复博弈 $G^\infty(\delta)$ 的纳什均衡，以 $v$ 为平均贴现收益。

精确版本（Fudenberg & Maskin, 1986）：

若满足完全维度性条件（full dimensionality condition）（$F$ 的内部在 $(n-1)$ 维上非空），则任何严格个人理性的可行收益均可通过SPNE实现（对足够高的 $\delta$）。

直觉：任何满足"参与人宁可合作也不愿被惩罚"的分配，都可通过适当的奖惩承诺在无限重复中实现。博弈论把"未来阴影”（shadow of the future）转化为合作的工具。

5.3 Folk定理的含义与局限

强大之处：解释了现实中广泛存在的合作（卡特尔、社会规范、国际协议等）——只要参与人足够有耐心。

局限：Folk定理也意味着均衡多重性被大幅扩大——几乎任何可行结果在足够耐心时都可支持。这让"重复博弈预测什么"变得不确定，需要额外的均衡选择标准。

6 不可观测行动：不完美监督下的合作

现实中，参与人的行动往往不可直接观察（如企业的成本或努力）。Abreu, Pearce & Stacchetti（1986/1990）建立了不完美公共监督（imperfect public monitoring）下的均衡理论：

公共信号：每期有公共可观测信号 $y \in Y$，其分布 $\rho(y | a)$ 由全体行动决定。

APS理论：通过"自生成集合"（self-generating sets）的固定点方法，刻画可实现的均衡集合，并分析最优惩罚路径。最佳均衡（optimal equilibrium）利用"最坏可信惩罚"（harshest credible punishment）来最大化总福利。

7 小结：重复博弈的核心洞见

情形	结论
有限重复，阶段博弈有唯一NE	唯一SPNE：每期重复NE（对合作无帮助）
有限重复，阶段博弈有多个NE	可能支持前期非均衡行为
无限重复，$\delta < \delta^*$	只有逐期纳什均衡可支持
无限重复，$\delta \geq \delta^*$	广泛的合作收益可被SPNE支持（Folk定理）

实践意义：维持合作需要：(1) 长期关系（高 $\delta$）；(2) 对背叛的可置信惩罚；(3) 行动可以被充分观察（监督可行性）；(4) 对未来的充分关心超过当期背叛的短期利益。

参考文献

Aumann, R., & Shapley, L. (1976). Long-term competition: A game-theoretic analysis. Mimeo (published 1994 in Essays in Game Theory).
Fudenberg, D., & Maskin, E. (1986). The folk theorem in repeated games with discounting or with incomplete information. Econometrica, 54(3), 533–554.
Axelrod, R. (1984). The Evolution of Cooperation. Basic Books.
Abreu, D., Pearce, D., & Stacchetti, E. (1990). Toward a theory of discounted repeated games with imperfect monitoring. Econometrica, 58(5), 1041–1063.
Benoit, J.-P., & Krishna, V. (1985). Finitely repeated games. Econometrica, 53(4), 905–922.