
【C0042】缺失值多重插补
经济学
数据整理与描述分析
Python
缺失值多重插补 (Multiple Imputation)
概述
本模块旨在解决数据集中存在的缺失值问题。与简单的均值/中位数填补或删除缺失行不同,多重插补 (Multiple Imputation, MI) 是一种更高级的统计技术。
核心原理
多重插补通过以下步骤工作:
- 创建多个副本:为原始数据集创建 $m$ 个(通常为 5-10 个)完整的副本。
- 随机填补:在每个副本中,利用观测到的数据分布,通过模型(如链式方程 MICE)对缺失值进行预测,并加入随机噪声以反映预测的不确定性。
- 独立分析:对这 $m$ 个完整数据集分别进行统计分析或机器学习建模。
- 结果合并:将 $m$ 次分析的结果按照 Rubin 规则进行合并,得到最终的参数估计和标准误。
优势
- 保留不确定性:单次填补往往低估了方差,而多重插补通过引入随机性保留了缺失值带来的不确定性。
- 减少偏差:相比删除法,能更有效地利用现有数据,减少因数据缺失导致的统计偏差。
- 适用性广:特别适用于缺失机制为 MAR (Missing at Random) 的情况。
使用方法
本实现基于 Python 的 scikit-learn 库中的 IterativeImputer (MICE 算法实现)。脚本会自动生成多个填补后的 CSV 文件,供用户 downstream 分析使用。