Page QiView

断点回归设计:局部随机化、带宽选择与有效性检验

断点回归设计:局部随机化、带宽选择与有效性检验

1 断点回归设计的直觉与识别逻辑

1.1 基本思想

断点回归设计(Regression Discontinuity Design, RDD) 利用一个运行变量(running variable) $X_i$ 决定处理的"规则":当 $X_i$ 越过某阈值 $c$ 时,处理状态(或处理概率)出现不连续跳跃

识别逻辑的关键直觉

  • 在阈值 $c$ 附近,$X_i$ 略高于 $c$ 者(receive treatment)与略低于 $c$ 者(no treatment)在所有其他相关特征上几乎相同——因为是否越过阈值接近于"随机",尤其是当个体对自身精确位置无完全控制时。
  • 因此,在阈值附近的条件下,两组个体的反事实潜在结果分布相似,处理效应可以识别。

1.2 RDD 的历史背景

RDD 最初由 Thistlethwaite & Campbell(1960)提出,研究奖学金对学生未来成就的影响——奖学金按考试分数的门槛分配,门槛附近的学生几乎同等水平,只因略超/未超门槛而导致处理状态不同。

此后被广泛应用于:选举效应(投票率阈值)、教育政策(班级规模阈值、保留级)、社会福利(收入资格线)、医学政策(血压/年龄阈值)等。


2 Sharp RDD

2.1 形式化定义

Sharp RDD(完全断点回归) 中,处理状态 $D_i$ 完全由运行变量决定:

$$D_i = \mathbf{1}[X_i \geq c]$$

识别假设(连续性假设)

$$\mathbb{E}[Y_i(0) | X_i = x] \quad \text{和} \quad \mathbb{E}[Y_i(1) | X_i = x] \quad \text{在 } x = c \text{ 处连续}$$

即:如果在阈值处没有处理,潜在结果的条件期望函数是连续的——个体的"基线表现"不会在阈值处跳跃。

识别结论:RDD 估计量识别阈值处的局部平均处理效应(LATE at the cutoff)

$$\tau_{\text{RDD}} = \lim_{x \downarrow c} \mathbb{E}[Y_i | X_i = x] - \lim_{x \uparrow c} \mathbb{E}[Y_i | X_i = x]$$

$$= \mathbb{E}[Y_i(1) - Y_i(0) | X_i = c]$$

注意:RDD 仅识别阈值处的局部效应,对远离阈值的个体不做因果推断。

2.2 图形分析

RDD 的最直观呈现是散点图 + 拟合曲线:以 $X_i$ 为横轴,$Y_i$ 为纵轴,在阈值两侧拟合回归曲线,观察阈值处是否出现不连续跳跃

好的 RDD 图

  • 阈值附近有可见的跳跃
  • 两侧趋势平滑(无非线性结构)
  • 数据密度在阈值处无明显跳跃(否则提示操纵)

3 估计方法:局部多项式估计器

3.1 局部线性回归

给定带宽 $h > 0$,对 $x \in [c-h, c+h]$ 内的样本分别在阈值两侧做线性回归:

右侧回归($X_i \in [c, c+h]$):

$$Y_i = \alpha_R + \beta_R (X_i - c) + \varepsilon_i$$

左侧回归($X_i \in [c-h, c]$):

$$Y_i = \alpha_L + \beta_L (X_i - c) + \varepsilon_i$$

RDD 估计量:$\hat\tau = \hat\alpha_R - \hat\alpha_L$(两条回归线在 $c$ 处的截距之差)

通常使用核加权(kernel weighting),给距阈值更近的观测更高权重(三角核或矩形核):

$$w_i = K\left(\frac{X_i - c}{h}\right)$$

3.2 局部多项式($p$ 阶)

更一般地,可用 $p$ 阶局部多项式。局部线性($p=1$) 在实践中最常推荐(Gelman & Imbens, 2019):

  • 相比局部常数($p=0$),局部线性对设计变量密度函数的依赖更小(边界校正好)
  • 相比高阶多项式($p \geq 2$),局部线性不容易过拟合,置信区间覆盖率更好
  • Gelman & Imbens(2019)明确反对使用全局高次多项式($p \geq 4$)进行RDD估计

3.3 最优带宽选择(CCT方法)

带宽选择是RDD估计的核心问题:

  • 带宽过小:样本量少,估计量方差大
  • 带宽过大:非阈值区域混入,偏差增大

Calonico, Cattaneo & Titiunik(CCT,2014) 提出了 RDD 最优带宽的均方误差最小化选法:

$$h_{\text{MSE}}^* = \arg\min_h \left[\text{Bias}(\hat\tau, h)^2 + \text{Var}(\hat\tau, h)\right]$$

CCT带宽选择公式(局部线性情形):

$$h^* = C_n \cdot \left(\frac{\sigma_+^2(c) + \sigma_-^2(c)}{(m_+’’(c))^2 + (m_-’’(c))^2}\right)^{1/5} \cdot n^{-1/5}$$

其中 $\sigma_{\pm}^2(c)$ 是阈值两侧的条件方差,$m_{\pm}’’(c)$ 是条件均值函数的二阶导数(代表曲率/偏差)。

推断校正:CCT 还提出了偏差校正置信区间(bias-corrected confidence intervals),解决了传统带宽下推断保守性不一致的问题,已成为当前实践标准。

软件实现(推荐):

library(rdrobust)
# 默认CCT带宽的局部多项式RDD
rd_fit <- rdrobust(y = Y, x = X, c = cutoff)
summary(rd_fit)

# 展示带宽范围的稳健性
rdbwselect(y = Y, x = X, c = cutoff)

4 Fuzzy RDD

4.1 模型设置

Fuzzy RDD:当运行变量越过阈值时,处理概率出现不连续跳跃,而非完美确定处理(可能存在不服从):

$$P(D_i = 1 | X_i = x) = \begin{cases} p_+(x) & x \geq c \ p_-(x) & x < c \end{cases}$$

且 $\lim_{x \downarrow c} p_+(x) \neq \lim_{x \uparrow c} p_-(x)$(跳跃存在)。

4.2 Fuzzy RDD 作为 IV 估计

Fuzzy RDD 可视为以越过阈值 $Z_i = \mathbf{1}[X_i \geq c]$ 为工具变量、以实际处理 $D_i$ 为内生变量的 IV 估计:

$$\tau_{\text{Fuzzy}} = \frac{\lim_{x \downarrow c}\mathbb{E}[Y_i | X_i=x] - \lim_{x \uparrow c}\mathbb{E}[Y_i | X_i=x]}{\lim_{x \downarrow c}\mathbb{E}[D_i | X_i=x] - \lim_{x \uparrow c}\mathbb{E}[D_i | X_i=x]}$$

分子是结果的跳跃,分母是处理概率的跳跃(“第一阶段”)。Fuzzy RDD 识别的是阈值处顺从者的局部平均处理效应:

$$\tau_{\text{Fuzzy}} = \mathbb{E}[Y_i(1) - Y_i(0) | X_i = c, \text{complier}]$$


5 有效性检验(Validity Tests)

RDD 的识别依赖连续性假设,需通过以下检验进行验证:

5.1 操纵检验(McCrary Density Test)

问题:若个体能精确控制运行变量,可能"操纵"自己越过(或不越过)阈值,导致阈值处的潜在结果分布不连续,识别假设失效。

McCrary(2008)密度检验:若存在操纵,阈值处观测密度将出现不连续性——门槛以上"堆积"(bunching)或门槛以下"缺失"。

零假设:$\lim_{x \downarrow c} f(x) = \lim_{x \uparrow c} f(x)$(密度在阈值处连续)

library(rddensity)
rddensity_fit <- rddensity(X = X, c = cutoff)
rdplotdensity(rddensity_fit, X)

5.2 协变量连续性检验(Covariate Smoothness)

前定变量(predetermined covariates) $Z_i$(在处理前确定的特征)作为结果变量,检验其在阈值处是否有跳跃。若 $Z_i$ 在阈值处跳跃,说明阈值附近的两组个体在处理前已系统性不同,连续性假设可疑。

# 对每个协变量做RDD
rdrobust(y = Z1, x = X, c = cutoff)
rdrobust(y = Z2, x = X, c = cutoff)

5.3 安慰剂截断点检验(Placebo Cutoff Tests)

非真实截断点(如 $c \pm \delta$)处重复RDD估计,检验是否出现异常跳跃。若非真实截断点也有显著跳跃,提示结果的跳跃并非处理引起。

5.4 带宽稳健性检验

在不同带宽 $h \in {0.5h^, h^, 2h^*}$ 下重复估计,报告点估计和置信区间的稳定性。一个可靠的RDD结论应在合理带宽范围内保持稳健。


6 RDD 的局限与扩展

6.1 主要局限

  1. 仅识别局部效应:政策含义受限,只对阈值附近个体有效,外推性弱
  2. 阈值附近样本量有限:精度可能较低,尤其在样本量有限时
  3. 需要识别假设不可检验:连续性假设本身无法直接验证,只能通过间接证据支持

6.2 扩展方向

地理断点回归(Geographic RDD):以地理边界(如行政边界)作为"阈值",如研究边境两侧的政策效应差异。

时间断点回归(Event Study / Time RDD):以时间阈值作为运行变量,研究某政策实施前后的效应(与DID密切相关)。

带协变量的RDD:将协变量 $Z_i$ 加入局部线性回归(Lin, 2013的思路),可减小方差,提升精度(但不改变识别策略)。


7 小结与实践清单

RDD 实证研究的标准流程

  1. 绘制RDD图:散点bin-plot + 分组拟合曲线,直观检验跳跃
  2. McCrary密度检验:排除运行变量操纵
  3. 协变量平衡检验:验证阈值附近的可比性
  4. CCT最优带宽:使用默认带宽估计主要结果
  5. 偏差校正置信区间:使用CCT推断方法
  6. 带宽稳健性:报告不同带宽下的估计值
  7. 安慰剂截断点:排除虚假跳跃
  8. 局部多项式次数稳健性:比较 $p=1$ 和 $p=2$ 的结果

参考文献

  • Thistlethwaite, D., & Campbell, D. (1960). Regression-discontinuity analysis: An alternative to the ex post facto experiment. Journal of Educational Psychology, 51(6), 309–317.
  • Imbens, G., & Lemieux, T. (2008). Regression discontinuity designs: A guide to practice. Journal of Econometrics, 142(2), 615–635.
  • Calonico, S., Cattaneo, M. D., & Titiunik, R. (2014). Robust nonparametric confidence intervals for regression-discontinuity designs. Econometrica, 82(6), 2295–2326.
  • McCrary, J. (2008). Manipulation of the running variable in the regression discontinuity design: A density test. Journal of Econometrics, 142(2), 698–714.
  • Gelman, A., & Imbens, G. (2019). Why high-order polynomials should not be used in regression discontinuity designs. JBES, 37(3), 447–456.
  • Cattaneo, M. D., Idrobo, N., & Titiunik, R. (2020). A Practical Introduction to Regression Discontinuity Designs. Cambridge University Press.