【C0036】双重机器学习DML

经济学
计量经济学与因果推断
Python
时间图标 2026-03-09
高级

双重机器学习 (Double Machine Learning, DML)

概述

双重机器学习 (DML) 是一种结合了机器学习与因果推断的统计方法,旨在解决高维协变量下的因果效应估计问题。传统回归方法在处理大量协变量时容易过拟合,导致因果效应估计偏差。DML 通过“正交化”步骤,利用机器学习模型分别预测结果变量 ($Y$) 和处理变量 ($T$),从而剔除协变量 ($X$) 的混淆影响,最终获得无偏的因果效应估计。

核心原理

  1. 第一步 (Nuisance Parameter Estimation):使用灵活的机器学习算法(如随机森林、梯度提升树等)分别拟合 $E[Y|X]$ 和 $E[T|X]$,得到残差 $ ilde{Y} = Y - \hat{E}[Y|X]$ 和 $ ilde{T} = T - \hat{E}[T|X]$。
  2. 第二步 (Orthogonalization):利用交叉拟合 (Cross-Fitting) 技术避免过拟合,将样本分为多折,用训练集训练 nuisance 模型,在验证集上计算残差。
  3. 第三步 (Final Estimation):在残差 $ ilde{Y}$ 和 $ ilde{T}$ 之间运行简单的线性回归(或其他参数模型),斜率即为因果效应估计值。

优势

  • 去偏性:有效消除高维协变量带来的混淆偏差。
  • 灵活性:允许使用任意强大的机器学习模型来处理复杂的非线性关系。
  • 鲁棒性:即使 nuisance 模型的收敛速度较慢,只要满足一定条件,最终的因果效应估计仍具有一致性和渐近正态性。

应用场景

  • 经济学中的政策评估
  • 医疗领域的治疗效果分析
  • 市场营销中的广告转化率归因
下载代码
兑换码获取图标 兑换码获取
文件名称: C0036.zip
文件大小: 0MB
更新时间: 2026-03-09