
【C00102】mice多重插补
经济学
管理科学
新闻传播
计量经济学与因果推断
R
MICE 多重插补简介
什么是 MICE?
- MICE* (Multivariate Imputation by Chained Equations, chained equations 的多变量插补) 是一种处理缺失数据的强大统计方法。与传统的单一插补(如用均值填充)不同,MICE 通过构建多个可能的插补值来反映缺失数据的不确定性。
核心原理
MICE 采用“链式方程”的方式,对每个包含缺失值的变量分别建立回归模型。它利用其他变量作为预测因子来填补当前变量的缺失值。这个过程会迭代多次(maxit),直到结果收敛。
主要步骤
- 插补 (Imputation):生成 $m$ 个完整的 datasets(通常 $m=5$ 到 $m=20$)。每个数据集中缺失值被不同的随机值填充,这些值来源于预测分布。
- 分析 (Analysis):对这 $m$ 个数据集分别进行相同的统计分析(如回归分析)。
- 汇合 (Pooling):使用 Rubin 规则将 $m$ 个分析结果合并,得到最终的参数估计、标准误和置信区间。这一步充分考虑了组间变异(between-imputation variability)和组内变异(within-imputation variability)。
优势
- 保留不确定性:避免了单一插补导致的标准误低估问题。
- 灵活性:可以为不同类型的变量(连续、二元、有序分类等)指定不同的插补模型(如 pmm, logreg, polyreg)。
- 广泛适用:适用于随机缺失 (MAR) 机制下的数据。