
【C0081】多重插补MI
经济学
会计金融
管理科学
计量经济学与因果推断
Stata
多重插补 (Multiple Imputation, MI)
概述
多重插补是一种处理缺失数据的统计技术。与单一插补(如直接用均值填充)不同,MI 通过为每个缺失值生成 $m$ 个不同的合理估计值,从而创建 $m$ 个完整的数据集。
核心原理
- 插补 (Imputation):基于观测数据的分布特征,利用随机性为缺失值生成 $m$ 组不同的填充值。这反映了缺失值的不确定性。
- 分析 (Analysis):对这 $m$ 个完整的数据集分别进行相同的统计分析(如回归分析、均值计算)。
- 汇总 (Pooling):使用 Rubin 规则将 $m$ 次分析的结果合并。最终结果不仅包含点估计,还包含了由缺失数据引起的额外变异性(标准误会增大)。
优势
- 保留不确定性:避免了单一插补导致的标准误低估问题。
- 无偏估计:在缺失机制为随机缺失 (MAR) 时,能提供渐近无偏的参数估计。
- 灵活性:适用于各种统计模型和数据类型。
适用场景
- 临床试验数据缺失
- 社会调查中的问卷漏填
- 任何需要严谨推断且存在缺失值的定量分析场景