工具变量法：局部平均处理效应、两阶段最小二乘与弱工具变量

1 为什么需要工具变量

1.1 内生性问题

在因果推断框架中，若处理变量 $D_i$ 与误差项 $\varepsilon_i$ 相关（内生性，endogeneity），OLS估计量是有偏不一致的：

$$Y_i = \alpha + \tau D_i + X_i’\beta + \varepsilon_i, \quad \text{Cov}(D_i, \varepsilon_i) \neq 0$$

内生性来源：

遗漏变量（Omitted Variables）：存在同时影响 $D_i$ 和 $Y_i$ 的不可观测因素（混淆因子）
测量误差（Measurement Error）：$D_i$ 的测量包含误差，经典测量误差导致衰减偏差（attenuation bias）
同时性（Simultaneity）：$Y_i$ 反过来影响 $D_i$（联立方程系统）

工具变量通过寻找 $D_i$ 的外生变异来识别因果效应，绕开这些内生性问题。

1.2 经典例子：教育的回报率

问题：估计教育年限（$D_i$）对工资（$Y_i$）的因果效应

$$\ln w_i = \alpha + \tau \cdot \text{educ}i + \underbrace{u_i}{\text{包含能力等不可观测因素}}$$

若能力（ability）同时使人受更多教育且工资更高，OLS过估计 $\tau$。

Angrist & Krueger（1991）工具变量：出生季度（quarter of birth）——美国义务教育法规规定，同年内出生较晚的学生在达到可辍学年龄前受更多教育。出生季度影响实际受教育年限（第一阶段）但不直接影响工资（排他性约束）。

2 工具变量的识别假设

2.1 三个核心假设

令 $Z_i$ 为工具变量，$D_i$ 为内生处理变量，$Y_i$ 为结果变量。

假设1——相关性（Relevance）：

$$\text{Cov}(Z_i, D_i) \neq 0 \quad (\text{等价地}: E[D_i | Z_i=1] \neq E[D_i | Z_i=0])$$

工具变量必须对处理有真实影响（“第一阶段”）。相关性是可检验的假设。

假设2——排他性约束（Exclusion Restriction）：

$$Z_i \not\to Y_i \quad \text{except through } D_i$$

工具变量仅通过处理变量影响结果，不存在直接效应。排他性是不可检验的，依赖经济理论与设计。

假设3——独立性（Independence / Exogeneity）：

$$Z_i \perp (Y_i(0), Y_i(1), D_i(0), D_i(1))$$

工具变量的分配独立于潜在结果和潜在处理状态（类似随机化）。通常通过"自然实验"或随机化设计保证。

2.2 Angrist-Imbens 单调性假设

在二值处理 $D_i \in {0,1}$ 和二值工具变量 $Z_i \in {0,1}$ 的框架下，按对工具变量的反应将个体分为四类：

类型（compliance type）	定义
顺从者（Compliers）	$D_i(1) = 1, D_i(0) = 0$——工具有效
总是接受（Always-takers）	$D_i(1) = D_i(0) = 1$
从不接受（Never-takers）	$D_i(1) = D_i(0) = 0$
反抗者（Defiers）	$D_i(1) = 0, D_i(0) = 1$——工具效果反向

单调性假设（Monotonicity）：无反抗者（no defiers）：

$$D_i(1) \geq D_i(0), \quad \forall i$$

工具变量只将个体推向处理而不会阻止任何人参与。此假设在多数自然实验中合理（强制、鼓励但不惩罚）。

3 局部平均处理效应（LATE）

3.1 LATE 的推导

Angrist & Imbens（1994）定理：在相关性、排他性、独立性和单调性四个假设下，二值IV估计量（Wald估计量）识别的是顺从者的局部平均处理效应：

$$\hat\tau_{\text{IV}} = \frac{\mathbb{E}[Y_i | Z_i = 1] - \mathbb{E}[Y_i | Z_i = 0]}{\mathbb{E}[D_i | Z_i = 1] - \mathbb{E}[D_i | Z_i = 0]} = \text{LATE}$$

$$\text{LATE} = \mathbb{E}[Y_i(1) - Y_i(0) | \text{Compliers}]$$

分子 $= \mathbb{E}[Y_i | Z_i = 1] - \mathbb{E}[Y_i | Z_i = 0]$：简化式（reduced form）——工具变量对结果的直接回归
分母 $= \mathbb{E}[D_i | Z_i = 1] - \mathbb{E}[D_i | Z_i = 0]$：第一阶段（first stage）——工具变量对处理的回归

3.2 LATE vs ATE vs ATT

三者关系：一般而言，LATE, ATE, ATT 可以不同：

LATE 关于顺从者子群，这个群体对工具变量"足够敏感"
若顺从者与总体类似（代表性），LATE ≈ ATE
若顺从者是政策中的"边际人"（marginal subjects），LATE = ATT for marginal individuals

外部有效性警告：LATE 对顺从者有效，但可能对总体缺乏外部有效性——若研究结论仅适用于对工具变量敏感的特定子群，政策推广需谨慎。

4 两阶段最小二乘（2SLS）

4.1 2SLS 的推导

当存在连续处理变量 $D_i$ 和连续工具变量 $Z_i$（或多个工具变量 $Z_i = (Z_{i1}, \ldots, Z_{ik})$，$k \geq 1$）时，两阶段最小二乘（Two-Stage Least Squares, 2SLS） 是标准估计方法：

第一阶段：用工具变量（可加控制变量 $X_i$）预测内生变量：

$$D_i = \pi_0 + \pi_1 Z_i + X_i’\pi_2 + \nu_i$$

获得拟合值 $\hat D_i = \hat\pi_0 + \hat\pi_1 Z_i + X_i’\hat\pi_2$（$D_i$ 中的外生部分）

第二阶段：用 $\hat D_i$ 代替 $D_i$ 进行结果回归：

$$Y_i = \alpha + \tau \hat D_i + X_i’\beta + \varepsilon_i$$

$\hat\tau_{2SLS}$ 是一致的（在工具变量假设成立时）。

等价（矩阵形式）：

$$\hat\tau_{2SLS} = \frac{Z’D}{Z’Z}^{-1} \cdot \frac{Z’Y}{Z’Z}^{-1} \cdot \frac{Z’Z}{n} = (D’P_Z D)^{-1} D’ P_Z Y$$

其中 $P_Z = Z(Z’Z)^{-1}Z’$ 是对 $Z$ 的投影矩阵。

4.2 控制变量的正确处理

若模型包含控制变量 $X_i$：

错误做法：先对 $Y$ 和 $D$ 分别对 $X$ 做偏残差，再IV估计
正确做法：在两个阶段均同时控制 $X$——2SLS的分母是 $Z$ 的外生部分，已控制 $X$ 的 $Z$ 的变异

library(AER)
iv_fit <- ivreg(Y ~ D + X | Z + X, data = df)
summary(iv_fit, diagnostics = TRUE)

# 或用fixest
library(fixest)
iv_fe <- feols(Y ~ X | id + year | D ~ Z, data = panel_df)

5 弱工具变量问题

5.1 产生偏差的机制

若第一阶段相关性弱（$\text{Cov}(Z_i, D_i) \approx 0$），分母 $\hat\pi_1 \approx 0$，2SLS估计量的偏差趋近于OLS偏差（而非0），且方差急剧增大：

$$\text{2SLS偏差} \approx \frac{1}{F_1} \times \text{OLS偏差}$$

其中 $F_1$ 是第一阶段F统计量。弱工具变量使2SLS"放大"了OLS偏差。

5.2 弱工具变量的诊断

经验法则（Staiger & Stock, 1997）：第一阶段F统计量 $> 10$（在一个工具变量时）是"强工具变量"的传统门槛。

Stock & Yogo（2005）精确版本：根据工具变量数量和可接受的相对偏差程度，提供精确临界值表。

Lee et al.（2022）更新：推荐使用有效F统计量（effective F statistic），在有限样本中提供比Cragg-Donald更可靠的弱IV诊断。临界值约为 $F > 104.7$（极严格）至 $F > 10$（传统）。

5.3 弱工具变量的稳健推断

当不确定工具变量强度时，使用弱工具变量稳健的置信区间：

Anderson-Rubin（AR）检验：

$$AR(\tau_0): \frac{1}{k} [Z’(Y - D \cdot \tau_0)]’ (Z’Z)^{-1} Z’(Y - D\tau_0) / s^2 \sim F(k, n-k)$$

AR 检验对弱工具变量完全稳健（在零假设 $\tau = \tau_0$ 下F分布精确成立），通过反转AR检验构造稳健置信区间。

library(ivmodel)
AR.test(ivmodel_fit)

6 多工具变量：过度识别检验

6.1 过度识别

当工具变量数量 $k$ 超过内生变量数量 $m$（$k > m$，过度识别，overidentified），可检验工具变量的联合有效性。

6.2 Sargan-Hansen J 检验

零假设：所有工具变量均有效（排他性约束成立）

$$J = n \cdot R^2_{\hat\varepsilon \sim Z} \sim \chi^2(k - m)$$

其中 $R^2_{\hat\varepsilon \sim Z}$ 是2SLS残差对工具变量的回归确定系数。

局限：J检验是联合检验，若某工具变量无效但另一个也偏差恰好对冲，可能无法发现。检验接受（$J$ 不显著）提示工具变量一致性，但不证明其有效。

6.3 控制函数方法（Control Function Approach）

Heckman（1976/1979）两步法/控制函数方法：

第一步：估计 $D_i$ 对 $Z_i$（和 $X_i$）的回归，提取拟合残差 $\hat\nu_i$
第二步：将 $\hat\nu_i$ 加入结果方程，直接用OLS估计：

$$Y_i = \alpha + \tau D_i + X_i’\beta + \rho \hat\nu_i + \varepsilon_i$$

在连续处理变量情境下，控制函数法与2SLS等价。其优势是可以检验内生性（$H_0: \rho = 0$，即Hausman检验），并灵活扩展到非线性模型（如 Probit 内生处理）。

7 典型应用案例

7.1 越战彩票与退伍军人收入（Angrist, 1990）

内生变量 $D_i$：是否服越战役（与能力、健康等相关）
工具变量 $Z_i$：征兵彩票号码（随机分配，仅影响收入通过参军渠道）
结论：服役对收入有显著负面影响（约−15%）；若用OLS，因参军者和非参军者的选择差异无法识别此效应

7.2 学校条件与学习成就（Angrist & Lavy, 1999）

运行变量：班级人数（Maimonides法规：班级人数超过40需拆分）——Fuzzy RDD + IV
第一阶段：法规门槛使班级人数出现不连续下降
结论：班级人数减少显著提升成绩

8 小结：IV的核心要点

概念	要点
IV 识别的参数	LATE（顺从者的处理效应），非ATE
弱工具变量	F < 10 时有偏；使用AR稳健区间
排他性约束	不可直接检验，是设计核心
单调性假设	排除"反抗者"，赋予LATE含义
多工具变量	Sargan J 检验，但联合检验有局限
2SLS vs 控制函数	线性模型下等价；非线性时控制函数更灵活

工具变量是最强大也最难滥用的因果推断工具之一。好的工具变量背后是深刻的制度理解和精心的研究设计，而非统计技巧的堆砌。

参考文献

Angrist, J. D., & Imbens, G. W. (1994). Identification and estimation of local average treatment effects. Econometrica, 62(2), 467–475.
Angrist, J. D. (1990). Lifetime earnings and the Vietnam era draft lottery: Evidence from Social Security administrative records. AER, 80(3), 313–336.
Staiger, D., & Stock, J. H. (1997). Instrumental variables regression with weak instruments. Econometrica, 65(3), 557–586.
Stock, J. H., & Yogo, M. (2005). Testing for weak instruments in linear IV regression. In D. W. K. Andrews & J. H. Stock (Eds.), Identification and Inference for Econometric Models. Cambridge University Press.
Andrews, I., Stock, J. H., & Sun, L. (2019). Weak instruments in instrumental variables regression: Theory and practice. Annual Review of Economics, 11, 727–753.
Lee, D. S., McCrary, J., Moreira, M. J., & Porter, J. R. (2022). Valid $t$-ratio inference for IV. AER, 112(10), 3260–3290.