因果推断的潜在结果框架:Rubin因果模型与干预效应估计
1 为什么相关不等于因果
统计学与机器学习的传统目标是发现变量之间的关联(association):$P(Y | X)$ 告诉我们在 $X$ 取某值时 $Y$ 的分布是什么。但许多重要的政策与科学问题需要的是因果推断(causal inference):如果我主动干预,令 $X$ 从 $x_0$ 变为 $x_1$,$Y$ 会如何变化?
经典反例:
- 冰淇淋销量 $X$ 与溺水人数 $Y$ 高度正相关——夏天两者都增加,但减少卖冰淇淋不能减少溺水
- 医院住院 $X$ 与死亡率 $Y$ 正相关——因为重病者更多入院,而不是医院让人更容易死
- 教育 $X$ 与收入 $Y$ 正相关——可能因为家庭背景、能力等混杂因素同时影响两者
识别因果关系需要超越回归的思维框架。
2 潜在结果框架(Potential Outcomes Framework)
2.1 潜在结果的定义
Neyman(1923)-Rubin(1974/1990)潜在结果框架(POF,也称Rubin Causal Model, RCM) 是现代计量经济学和统计学中最主流的因果推断框架。
核心概念:
对于每个个体 $i$ 和处理变量 $D \in {0, 1}$($D=1$ 表示"受处理",$D=0$ 表示"对照"),定义:
- $Y_i(1)$:个体 $i$ 在接受处理情况下的潜在结果(potential outcome)
- $Y_i(0)$:个体 $i$ 在未接受处理情况下的潜在结果
个体因果效应(Individual Treatment Effect, ITE):
$$\tau_i = Y_i(1) - Y_i(0)$$
因果推断的基本问题(Fundamental Problem of Causal Inference,Holland, 1986):
对于每个个体,在同一时点只能观察到其中一个潜在结果,另一个是反事实(counterfactual),永远无法直接观测!
$$Y_i^{\text{obs}} = D_i \cdot Y_i(1) + (1 - D_i) \cdot Y_i(0)$$
即:观测结果是反事实的"被选择"。
2.2 SUTVA假设
稳定单元处理值假设(Stable Unit Treatment Value Assumption, SUTVA) 包含两部分:
- 无干扰(no interference):个体 $i$ 的潜在结果不受其他个体处理状态的影响,即 $Y_i(D_i, D_{-i}) = Y_i(D_i)$
- 一致版本(consistency / single version of treatment):处理是明确定义的,不存在不同"版本"——$D_i = 1 \Rightarrow Y_i^{\text{obs}} = Y_i(1)$
SUTVA在网络效应、溢出效应存在时会被违反(如疫苗接种的群体免疫效应)。
3 处理效应的定义
3.1 平均处理效应(ATE)
总体平均处理效应(Average Treatment Effect):
$$\text{ATE} = \mathbb{E}[\tau_i] = \mathbb{E}[Y_i(1)] - \mathbb{E}[Y_i(0)]$$
ATE衡量总体中随机抽取一个个体接受处理的平均效应,是政策评估中最常用的参数。
3.2 处理组平均处理效应(ATT)
处理组平均处理效应(Average Treatment Effect on the Treated):
$$\text{ATT} = \mathbb{E}[\tau_i | D_i = 1] = \mathbb{E}[Y_i(1) | D_i = 1] - \mathbb{E}[Y_i(0) | D_i = 1]$$
ATT衡量实际接受处理的个体的平均效应——对政策的受益人更具直接意义。
注意 $\text{ATT} \neq \text{ATE}$:当处理分配与潜在结果相关(选择性处理)时,处理组通常不代表总体。
3.3 局部平均处理效应(LATE)
当处理内生(endogenous)时,工具变量方法识别的是局部平均处理效应(Local Average Treatment Effect)(Angrist & Imbens, 1994):
$$\text{LATE} = \mathbb{E}[Y_i(1) - Y_i(0) | \text{compliers}]$$
其中"顺从者(compliers)“是指受到工具变量影响才改变处理状态的个体子群。LATE通常介于ATE和ATT之间,是工具变量方法的"自然解释”。
4 选择偏差问题
4.1 对均值差的分解
**观测均值差(simple difference in means, SDM)**分解:
$$\underbrace{\mathbb{E}[Y_i^{\text{obs}} | D_i = 1] - \mathbb{E}[Y_i^{\text{obs}} | D_i = 0]}{\text{观测均值差}} = \underbrace{\mathbb{E}[Y_i(1) - Y_i(0) | D_i = 1]}{\text{ATT(真实效应)}} + \underbrace{\mathbb{E}[Y_i(0) | D_i = 1] - \mathbb{E}[Y_i(0) | D_i = 0]}_{\text{选择偏差(selection bias)}}$$
选择偏差(selection bias) $= \mathbb{E}[Y_i(0) | D_i = 1] - \mathbb{E}[Y_i(0) | D_i = 0]$
这是处理组和对照组在潜在结果 $Y(0)$ 上的系统性差异,反映了非随机处理分配导致的混淆。
例子:评估职业培训项目($D=1$)对工资($Y$)的影响:
- 参与培训者($D=1$)可能本就更有动力、更有能力——即便没有培训,他们的工资也可能更高
- 因此 $\mathbb{E}[Y_i(0) | D_i=1] > \mathbb{E}[Y_i(0) | D_i=0]$,OLS估计高估培训的真实效应
4.2 混淆因子(Confounders)
混淆因子(confounder) $X_i$ 同时影响处理 $D_i$ 和结果 $Y_i$:
$$X_i \to D_i, \quad X_i \to Y_i$$
当存在未测量的混淆因子时,普通回归分析无法一致估计因果效应。消除混淆是因果推断的核心挑战。
5 随机化实验:消除选择偏差的黄金标准
5.1 随机对照实验(RCT)
随机化处理分配:$D_i \perp (Y_i(0), Y_i(1))$(处理独立于潜在结果)
在RCT中:
$$\mathbb{E}[Y_i^{\text{obs}} | D_i = 1] - \mathbb{E}[Y_i^{\text{obs}} | D_i = 0] = \mathbb{E}[Y_i(1) - Y_i(0)] = \text{ATE}$$
选择偏差为零!随机化通过"打断"处理与潜在结果的相关性,使处理组和对照组在所有可观测和不可观测特征上平均相同。
5.2 为什么需要超越RCT
尽管RCT是确立因果关系的黄金标准,但许多重要情境下RCT不可行:
- 伦理限制:随机让某些人吸烟
- 现实限制:随机分配国家的政策
- 成本限制:大规模社会项目的随机化费用高昂
- 历史研究:已发生的政策无法重新随机分配
这促使了准实验方法(quasi-experimental methods) 的发展:断点回归、双重差分、工具变量……
6 无混淆条件与识别策略
6.1 有条件独立假设(CIA)/ 无混淆性
假设(Unconfoundedness / CIA):
$$Y_i(0), Y_i(1) \perp D_i \mid X_i$$
即在条件控制可观测协变量 $X_i$ 后,处理分配独立于潜在结果。
当CIA成立时,ATE和ATT均可识别:
$$\text{ATE} = \mathbb{E}_X\left[\mathbb{E}[Y | D=1, X] - \mathbb{E}[Y | D=0, X]\right]$$
CIA成立的充分条件:所有混淆因子均在 $X_i$ 中被测量和控制。这是选择可观测(selection on observables) 的假设。
6.2 重叠支撑假设(Overlap / Common Support)
$$0 < P(D_i = 1 | X_i) < 1$$
即在协变量的每个值处,处理组和对照组均有观测值,否则某些子群的反事实无法推断。
CIA + Overlap = 强可忽略性假设(Strong Ignorability, Rosenbaum & Rubin, 1983)
7 因果效应的估计方法概览
| 方法 | 核心假设 | 识别的参数 | 适用情境 |
|---|---|---|---|
| RCT | $D \perp Y(0), Y(1)$ | ATE | 实验可行 |
| 回归(条件均值差) | CIA + Overlap | ATE(条件) | 可观测混淆 |
| 匹配/PSM | CIA + Overlap(倾向得分) | ATT | 多维协变量 |
| 工具变量(IV) | 工具变量相关+排他 | LATE(顺从者) | 内生处理 |
| 断点回归(RDD) | 处理阈值处的局部随机化 | LATE(阈值处) | 规则决定处理 |
| 双重差分(DID) | 平行趋势 | ATT(处理组) | 面板/政策干预 |
| 合成控制 | 加权对照组创造反事实 | ATT(单个案例) | 单一接受处理单元 |
8 因果效应的异质性
异质处理效应(Heterogeneous Treatment Effects, HTE):现实中因果效应通常随个体特征变化。
条件平均处理效应(CATE):
$$\tau(x) = \mathbb{E}[Y_i(1) - Y_i(0) | X_i = x]$$
机器学习方法(广义随机森林、双重去偏ML等)近年来大幅提升了CATE的非参数估计能力,是现代因果机器学习的核心目标(详见因果机器学习篇)。
参考文献
- Rubin, D. B. (1974). Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of Educational Psychology, 66(5), 688–701.
- Neyman, J. (1923). On the application of probability theory to agricultural experiments. Statistical Science (1990 translation), 5(4), 465–480.
- Holland, P. W. (1986). Statistics and causal inference. JASA, 81(396), 945–960.
- Angrist, J., & Imbens, G. (1994). Identification and estimation of local average treatment effects. Econometrica, 62(2), 467–475.
- Rosenbaum, P., & Rubin, D. (1983). The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41–55.
- Imbens, G., & Rubin, D. (2015). Causal Inference for Statistics, Social, and Biomedical Sciences. Cambridge University Press.