
【C0095】DoubleML因果推断
经济学
管理科学
新闻传播
计量经济学与因果推断
R
DoubleML 因果推断简介
什么是 DoubleML?
DoubleML (Double/Debiased Machine Learning) 是一种结合了机器学习与计量经济学的统计框架,旨在高维数据环境下对因果参数(如平均处理效应 ATE)进行无偏估计和统计推断。
核心原理
传统机器学习模型擅长预测,但直接用于因果推断会产生正则化偏差(Regularization Bias)。DoubleML 通过以下两个关键步骤解决此问题:
- Neyman 正交化 (Neyman Orthogonality):构建一个矩条件,使得因果参数的估计对 nuisance parameters(如倾向得分和结果回归函数)的估计误差不敏感。
- 交叉拟合 (Cross-Fitting):将数据分为 K 折,在一部分数据上训练机器学习模型来预测 nuisance parameters,在另一部分数据上计算残差并估计因果效应。这避免了过拟合并确保了中心极限定理的适用性。
本案例流程
本 R 脚本 (main.R) 演示了完整的 DoubleML 工作流:
- 数据生成:模拟包含混淆变量的观测数据。
- 模型设定:使用
mlr3包中的随机森林算法分别作为结果模型和倾向得分模型的基学习器。 - 估计与推断:利用
DoubleML包执行交叉拟合,计算平均处理效应 (ATE)、标准误及置信区间。
该方法允许研究者在使用灵活的机器学习算法控制混淆因素的同时,依然能获得具有 $\sqrt{N}$-一致性和渐近正态性的因果估计量。