双重差分法：平行趋势、异质性处理效应与交错DID

1 经典双重差分（2×2 DID）

1.1 设定与估计量

经典 DID 设定：

两组：处理组（$G=1$，在某时点接受处理）和对照组（$G=0$，从不接受处理）
两期：处理前（$T=0$）和处理后（$T=1$）
处理时点：$T=1$ 期处理组接受处理，即 $D_{it} = G_i \cdot T_t$

DID 估计量（差中差）：

$$\hat\tau_{\text{DID}} = \underbrace{(\bar Y_{11} - \bar Y_{10})}{\text{处理组前后差}} - \underbrace{(\bar Y{01} - \bar Y_{00})}_{\text{对照组前后差}}$$

其中 $\bar Y_{gt} = \frac{1}{n_g}\sum_{i:G_i=g} Y_{it}$。

等价的回归形式：

$$Y_{it} = \alpha + \beta_1 G_i + \beta_2 T_t + \tau (G_i \cdot T_t) + \varepsilon_{it}$$

$\hat\tau$ 是交叉项系数，等于DID估计量。

1.2 识别：平行趋势假设

平行趋势假设（Parallel Trends Assumption, PTA）：

$$\mathbb{E}[Y_{i1}(0) - Y_{i0}(0) | G_i = 1] = \mathbb{E}[Y_{i1}(0) - Y_{i0}(0) | G_i = 0]$$

即：如果处理组没有受到处理，其结果的时间趋势与对照组相同。

用潜在结果重写DID：

$$\hat\tau_{\text{DID}} = \underbrace{\mathbb{E}[Y_{i1}(1) - Y_{i1}(0) | G_i = 1]}{\text{ATT（处理组T=1期处理效应）}} + \underbrace{(\mathbb{E}[\Delta Y{i}(0)|G=1] - \mathbb{E}[\Delta Y_i(0)|G=0])}_{\text{平行趋势偏差（在PTA下=0）}}$$

注意：PTA是一个不可检验的反事实假设（因为 $Y_{i1}(0)$ 对处理组不可观测），只能通过间接证据（如预期/事前趋势检验）提供支持。

1.3 DID的核心优势

相对于简单横截面回归，DID通过"控制时间不变的个体固定效应"——即个体层面的不随时间变化的混淆因子（ability, region quality等），显著减少了选择偏差的来源。

$$Y_{it} = \alpha_i + \lambda_t + \tau D_{it} + \varepsilon_{it}$$

$\alpha_i$：个体固定效应（控制所有时不变特征）
$\lambda_t$：时间固定效应（控制所有个体共享的时间趋势）

2 双向固定效应（TWFE）估计量

2.1 从2×2 DID到面板数据

当有多期数据（$T > 2$）和更复杂的面板时，通常使用双向固定效应（Two-Way Fixed Effects, TWFE）：

$$Y_{it} = \alpha_i + \lambda_t + \tau D_{it} + X_{it}’\gamma + \varepsilon_{it}$$

TWFE 是大多数应用研究的标准设定，可通过 OLS 估计（在去均值后等价于"组内估计量"）。

2.2 当 TWFE 适用时

当处理状态 $D_{it}$ 是吸收性的（absorbing, 一旦处理不可逆）且所有处理组同时接受处理（common treatment timing） 时，TWFE的系数 $\hat\tau$ 一致估计ATT（在平行趋势假设下）。

2.3 TWFE的标准误问题

面板数据通常存在序列相关（serial correlation）——同一个体跨期残差相关。忽视此问题将导致标准误被严重低估。

解决方案：对个体层面进行双向聚类标准误（clustered standard errors）：

reghdfe Y D X, absorb(id year) cluster(id)

Bertrand, Duflo & Mullainathan（2004）的模拟研究表明，不聚类时5%名义显著水平实际可达45%的第一类错误率——聚类SE是DID研究的标准做法。

3 平行趋势的检验与强化

3.1 事件研究设计（Event Study）

事件研究（event study） 是评估平行趋势最常用的方法：

$$Y_{it} = \alpha_i + \lambda_t + \sum_{k \neq -1} \delta_k \cdot \mathbf{1}[t - t_i^* = k] \cdot G_i + \varepsilon_{it}$$

其中 $t_i^*$ 是个体 $i$ 的处理时点，$k$ 是"相对时间"（事前负 $k$，事后正 $k$），基准期为 $k = -1$（处理前最后一期）。

事前系数：若 $\delta_{-k}$ （$k > 0$）均不显著异于零，支持平行趋势
事后系数：$\delta_{k}$ （$k > 0$）展示处理效应的动态轨迹

图形呈现：绘制相对时间系数及其置信区间，直观展示趋势平行性和效应动态。

library(fixest)
es_fit <- feols(Y ~ i(rel_time, G, ref = -1) | id + year, data = panel_data)
iplot(es_fit, main = "Event Study: Pre/Post Treatment Effects")

3.2 有条件平行趋势（Conditional PTA）

当处理组和对照组的协变量分布差异影响时间趋势时，可以假设在控制协变量 $X_i$ 后平行趋势成立：

$$\mathbb{E}[Y_{i1}(0) - Y_{i0}(0) | G_i, X_i] = g(X_i)$$

在此假设下，需在回归中加入协变量与时间交叉项（group-time specific controls）。

3.3 增强DID（Augmented DID, Sant’Anna & Zhao 2020）

Sant’Anna & Zhao（2020）提出了结合倾向得分加权与结果回归的增强DID估计量（doubly robust DID），在倾向得分模型或回归模型之一正确指定时均一致——提供了比标准TWFE更稳健的推断。

4 交错采纳 DID 与异质处理效应

4.1 交错采纳设计（Staggered Adoption）

现实中常见情形：不同单元在不同时点接受处理（如各省/市分先后实施某政策）。这是"交错采纳（staggered adoption）“设计。

传统TWFE在此设定下的问题（Callaway & Sant’Anna, 2021; Sun & Abraham, 2021; Baker et al., 2022等）：

若不同时点接受处理的群体处理效应不同质（heterogeneous treatment effects），TWFE系数是各群体、各时期效应的加权平均——但权重可能为负！ 这导致：

TWFE 系数无法解释为任何直觉上有意义的加权 ATT
在极端情形下，即便所有群体效应均为正，TWFE可能报告负的总体系数

根本原因：TWFE 将"早期接受处理的群体"用于后期比较时作为对照组，而已处理个体的 $Y(0)$ 不可直接观测——若不同群体处理效应异质，这种隐性比较会产生"禁止比较（forbidden comparison）"。

4.2 Callaway & Sant’Anna（2021）方法

Group-Time ATT（组时平均处理效应）：

$$\text{ATT}(g, t) = \mathbb{E}[Y_t(g) - Y_t(0) | G_i = g]$$

其中 $g$ 是处理时点（cohort），$t$ 是日历时间。每个 $(g,t)$ 组合给出一个单独的局部ATT。

汇总方式：

简单平均：$\theta = \sum_{g,t} \omega_{g,t} \cdot \text{ATT}(g,t)$（等权重）
按组规模加权：适合政策评估
事件时间平均：$\bar\theta(l) = \sum_g \text{ATT}(g, g+l)$（固定相对处理时间 $l$）

library(did)
cs_fit <- att_gt(yname = "Y", tname = "year", idname = "id",
                 gname = "first_treated", data = panel_data)
aggte(cs_fit, type = "dynamic")  # 事件时间平均

4.3 Sun & Abraham（2021）事件时间方法

Sun & Abraham 提出了在事件研究框架中正确处理异质效应的估计量：以**“从未处理"或"最后处理"的群体**作为干净对照，消除禁止比较，估计每个队列每个相对时间的处理效应，再进行事后加权汇总。

核心推论：在交错采纳下，应使用Callaway-Sant’Anna或Sun-Abraham方法，而非直接使用TWFE——后者在处理效应异质时可能严重误导。

5 合成控制方法（Synthetic Control）

5.1 单一处理单元问题

DID 通常适用于有足够对照单元的面板。当只有一个（或极少数）接受处理的单元（如某国、某省的政策改革），传统DID对照组构造困难。

合成控制（Synthetic Control，Abadie & Gardeazabal, 2003；Abadie, Diamond & Hainmueller, 2010）：通过对照单元的加权平均构造合成对照，要求：

$$\min_{\mathbf{w}} \sum_t (Y_{1t}^{\text{pre}} - \sum_{j \neq 1} w_j Y_{jt})^2 \quad \text{s.t. } w_j \geq 0, \sum_j w_j = 1$$

选择使处理前期合成控制最接近处理单元的权重向量，再用处理后期的差值估计ATT。

优点：直观、透明、适合单案例研究，内置了对照组选择的显式正则化
局限：有限推断检验（置换检验），在大量单元时计算复杂

6 实证清单：DID分析八步法

✅ 描述性统计与趋势图：处理前平行趋势的初步视觉检验
✅ 事件研究估计：报告处理前系数以检验PTA
✅ 主要TWFE估计（同质效应假设下）
✅ Callaway-Sant’Anna（交错采纳时，替代TWFE作为主要结果）
✅ 聚类标准误：在处理分配单元层面聚类
✅ 控制变量：加入时变协变量，确保对照组可比
✅ 安慰剂检验：伪处理期、伪处理组检验
✅ 稳健性：不同样本、不同结果变量、不同时间窗口

参考文献

Bertrand, M., Duflo, E., & Mullainathan, S. (2004). How much should we trust differences-in-differences estimates? QJE, 119(1), 249–275.
Callaway, B., & Sant’Anna, P. H. C. (2021). Difference-in-differences with multiple time periods. JE, 225(2), 200–230.
Sun, L., & Abraham, S. (2021). Estimating dynamic treatment effects in event studies with heterogeneous treatment effects. JE, 225(2), 175–199.
Baker, A. C., Larcker, D. F., & Wang, C. C. Y. (2022). How much should we trust staggered difference-in-differences estimates? JFE, 144(2), 370–395.
Abadie, A., Diamond, A., & Hainmueller, J. (2010). Synthetic control methods for comparative case studies. JASA, 105(490), 493–505.
Sant’Anna, P. H. C., & Zhao, J. (2020). Doubly robust difference-in-differences estimators. JE, 219(1), 101–122.