因果推断的潜在结果框架：Rubin因果模型与干预效应估计

1 为什么相关不等于因果

统计学与机器学习的传统目标是发现变量之间的关联（association）：$P(Y | X)$ 告诉我们在 $X$ 取某值时 $Y$ 的分布是什么。但许多重要的政策与科学问题需要的是因果推断（causal inference）：如果我主动干预，令 $X$ 从 $x_0$ 变为 $x_1$，$Y$ 会如何变化？

经典反例：

冰淇淋销量 $X$ 与溺水人数 $Y$ 高度正相关——夏天两者都增加，但减少卖冰淇淋不能减少溺水
医院住院 $X$ 与死亡率 $Y$ 正相关——因为重病者更多入院，而不是医院让人更容易死
教育 $X$ 与收入 $Y$ 正相关——可能因为家庭背景、能力等混杂因素同时影响两者

识别因果关系需要超越回归的思维框架。

2 潜在结果框架（Potential Outcomes Framework）

2.1 潜在结果的定义

Neyman（1923）-Rubin（1974/1990）潜在结果框架（POF，也称Rubin Causal Model, RCM） 是现代计量经济学和统计学中最主流的因果推断框架。

核心概念：

对于每个个体 $i$ 和处理变量 $D \in {0, 1}$（$D=1$ 表示"受处理"，$D=0$ 表示"对照"），定义：

$Y_i(1)$：个体 $i$ 在接受处理情况下的潜在结果（potential outcome）
$Y_i(0)$：个体 $i$ 在未接受处理情况下的潜在结果

个体因果效应（Individual Treatment Effect, ITE）：

$$\tau_i = Y_i(1) - Y_i(0)$$

因果推断的基本问题（Fundamental Problem of Causal Inference，Holland, 1986）：

对于每个个体，在同一时点只能观察到其中一个潜在结果，另一个是反事实（counterfactual），永远无法直接观测！

$$Y_i^{\text{obs}} = D_i \cdot Y_i(1) + (1 - D_i) \cdot Y_i(0)$$

即：观测结果是反事实的"被选择"。

2.2 SUTVA假设

稳定单元处理值假设（Stable Unit Treatment Value Assumption, SUTVA） 包含两部分：

无干扰（no interference）：个体 $i$ 的潜在结果不受其他个体处理状态的影响，即 $Y_i(D_i, D_{-i}) = Y_i(D_i)$
一致版本（consistency / single version of treatment）：处理是明确定义的，不存在不同"版本"——$D_i = 1 \Rightarrow Y_i^{\text{obs}} = Y_i(1)$

SUTVA在网络效应、溢出效应存在时会被违反（如疫苗接种的群体免疫效应）。

3 处理效应的定义

3.1 平均处理效应（ATE）

总体平均处理效应（Average Treatment Effect）：

$$\text{ATE} = \mathbb{E}[\tau_i] = \mathbb{E}[Y_i(1)] - \mathbb{E}[Y_i(0)]$$

ATE衡量总体中随机抽取一个个体接受处理的平均效应，是政策评估中最常用的参数。

3.2 处理组平均处理效应（ATT）

处理组平均处理效应（Average Treatment Effect on the Treated）：

$$\text{ATT} = \mathbb{E}[\tau_i | D_i = 1] = \mathbb{E}[Y_i(1) | D_i = 1] - \mathbb{E}[Y_i(0) | D_i = 1]$$

ATT衡量实际接受处理的个体的平均效应——对政策的受益人更具直接意义。

注意 $\text{ATT} \neq \text{ATE}$：当处理分配与潜在结果相关（选择性处理）时，处理组通常不代表总体。

3.3 局部平均处理效应（LATE）

当处理内生（endogenous）时，工具变量方法识别的是局部平均处理效应（Local Average Treatment Effect）（Angrist & Imbens, 1994）：

$$\text{LATE} = \mathbb{E}[Y_i(1) - Y_i(0) | \text{compliers}]$$

其中"顺从者（compliers）“是指受到工具变量影响才改变处理状态的个体子群。LATE通常介于ATE和ATT之间，是工具变量方法的"自然解释”。

4 选择偏差问题

4.1 对均值差的分解

**观测均值差（simple difference in means, SDM）**分解：

$$\underbrace{\mathbb{E}[Y_i^{\text{obs}} | D_i = 1] - \mathbb{E}[Y_i^{\text{obs}} | D_i = 0]}{\text{观测均值差}} = \underbrace{\mathbb{E}[Y_i(1) - Y_i(0) | D_i = 1]}{\text{ATT（真实效应）}} + \underbrace{\mathbb{E}[Y_i(0) | D_i = 1] - \mathbb{E}[Y_i(0) | D_i = 0]}_{\text{选择偏差（selection bias）}}$$

选择偏差（selection bias） $= \mathbb{E}[Y_i(0) | D_i = 1] - \mathbb{E}[Y_i(0) | D_i = 0]$

这是处理组和对照组在潜在结果 $Y(0)$ 上的系统性差异，反映了非随机处理分配导致的混淆。

例子：评估职业培训项目（$D=1$）对工资（$Y$）的影响：

参与培训者（$D=1$）可能本就更有动力、更有能力——即便没有培训，他们的工资也可能更高
因此 $\mathbb{E}[Y_i(0) | D_i=1] > \mathbb{E}[Y_i(0) | D_i=0]$，OLS估计高估培训的真实效应

4.2 混淆因子（Confounders）

混淆因子（confounder） $X_i$ 同时影响处理 $D_i$ 和结果 $Y_i$：

$$X_i \to D_i, \quad X_i \to Y_i$$

当存在未测量的混淆因子时，普通回归分析无法一致估计因果效应。消除混淆是因果推断的核心挑战。

5 随机化实验：消除选择偏差的黄金标准

5.1 随机对照实验（RCT）

随机化处理分配：$D_i \perp (Y_i(0), Y_i(1))$（处理独立于潜在结果）

在RCT中：

$$\mathbb{E}[Y_i^{\text{obs}} | D_i = 1] - \mathbb{E}[Y_i^{\text{obs}} | D_i = 0] = \mathbb{E}[Y_i(1) - Y_i(0)] = \text{ATE}$$

选择偏差为零！随机化通过"打断"处理与潜在结果的相关性，使处理组和对照组在所有可观测和不可观测特征上平均相同。

5.2 为什么需要超越RCT

尽管RCT是确立因果关系的黄金标准，但许多重要情境下RCT不可行：

伦理限制：随机让某些人吸烟
现实限制：随机分配国家的政策
成本限制：大规模社会项目的随机化费用高昂
历史研究：已发生的政策无法重新随机分配

这促使了准实验方法（quasi-experimental methods） 的发展：断点回归、双重差分、工具变量……

6 无混淆条件与识别策略

6.1 有条件独立假设（CIA）/ 无混淆性

假设（Unconfoundedness / CIA）：

$$Y_i(0), Y_i(1) \perp D_i \mid X_i$$

即在条件控制可观测协变量 $X_i$ 后，处理分配独立于潜在结果。

当CIA成立时，ATE和ATT均可识别：

$$\text{ATE} = \mathbb{E}_X\left[\mathbb{E}[Y | D=1, X] - \mathbb{E}[Y | D=0, X]\right]$$

CIA成立的充分条件：所有混淆因子均在 $X_i$ 中被测量和控制。这是选择可观测（selection on observables） 的假设。

6.2 重叠支撑假设（Overlap / Common Support）

$$0 < P(D_i = 1 | X_i) < 1$$

即在协变量的每个值处，处理组和对照组均有观测值，否则某些子群的反事实无法推断。

CIA + Overlap = 强可忽略性假设（Strong Ignorability, Rosenbaum & Rubin, 1983）

7 因果效应的估计方法概览

方法	核心假设	识别的参数	适用情境
RCT	$D \perp Y(0), Y(1)$	ATE	实验可行
回归（条件均值差）	CIA + Overlap	ATE（条件）	可观测混淆
匹配/PSM	CIA + Overlap（倾向得分）	ATT	多维协变量
工具变量（IV）	工具变量相关+排他	LATE（顺从者）	内生处理
断点回归（RDD）	处理阈值处的局部随机化	LATE（阈值处）	规则决定处理
双重差分（DID）	平行趋势	ATT（处理组）	面板/政策干预
合成控制	加权对照组创造反事实	ATT（单个案例）	单一接受处理单元

8 因果效应的异质性

异质处理效应（Heterogeneous Treatment Effects, HTE）：现实中因果效应通常随个体特征变化。

条件平均处理效应（CATE）：

$$\tau(x) = \mathbb{E}[Y_i(1) - Y_i(0) | X_i = x]$$

机器学习方法（广义随机森林、双重去偏ML等）近年来大幅提升了CATE的非参数估计能力，是现代因果机器学习的核心目标（详见因果机器学习篇）。

参考文献

Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5), 688–701.
Neyman, J. (1923). On the application of probability theory to agricultural experiments. Statistical Science (1990 translation), 5(4), 465–480.
Holland, P. W. (1986). Statistics and causal inference. JASA, 81(396), 945–960.
Angrist, J., & Imbens, G. (1994). Identification and estimation of local average treatment effects. Econometrica, 62(2), 467–475.
Rosenbaum, P., & Rubin, D. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41–55.
Imbens, G., & Rubin, D. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press.