【C0036】双重机器学习DML

经济学

计量经济学与因果推断

Python

2026-03-09

高级

双重机器学习 (Double Machine Learning, DML)

概述

双重机器学习 (DML) 是一种结合了机器学习与因果推断的统计方法，旨在解决高维协变量下的因果效应估计问题。传统回归方法在处理大量协变量时容易过拟合，导致因果效应估计偏差。DML 通过“正交化”步骤，利用机器学习模型分别预测结果变量 ($Y$) 和处理变量 ($T$)，从而剔除协变量 ($X$) 的混淆影响，最终获得无偏的因果效应估计。

核心原理

第一步 (Nuisance Parameter Estimation)：使用灵活的机器学习算法（如随机森林、梯度提升树等）分别拟合 $E[Y|X]$ 和 $E[T|X]$，得到残差 $ ilde{Y} = Y - \hat{E}[Y|X]$ 和 $ ilde{T} = T - \hat{E}[T|X]$。
第二步 (Orthogonalization)：利用交叉拟合 (Cross-Fitting) 技术避免过拟合，将样本分为多折，用训练集训练 nuisance 模型，在验证集上计算残差。
第三步 (Final Estimation)：在残差 $ ilde{Y}$ 和 $ ilde{T}$ 之间运行简单的线性回归（或其他参数模型），斜率即为因果效应估计值。

优势

去偏性：有效消除高维协变量带来的混淆偏差。
灵活性：允许使用任意强大的机器学习模型来处理复杂的非线性关系。
鲁棒性：即使 nuisance 模型的收敛速度较慢，只要满足一定条件，最终的因果效应估计仍具有一致性和渐近正态性。

应用场景

经济学中的政策评估
医疗领域的治疗效果分析
市场营销中的广告转化率归因

下载代码

兑换码获取

文件名称： C0036.zip

文件大小： 0MB

更新时间： 2026-03-09

订阅代码会员

【C0036】双重机器学习DML

双重机器学习 (Double Machine Learning, DML)

概述

核心原理

优势

应用场景

结果展示说明

输入操作

预期输出内容