
【C0154】基于 CGSS 与双重机器学习
理工医
经济学
机器学习与深度学习
社会网络分析
Stata
R
本资源围绕论文《户籍歧视导致的收入差距依然存在吗——基于机器学习方法的再讨论》展开复现,主题聚焦于农业户籍劳动者与城镇职工之间的收入差距问题,重点检验户籍身份是否仍会对劳动收入产生不利影响。
原文使用 CGSS 多年份调查数据,将样本划分为 2012—2015 年和 2017—2021 年两个阶段,分别考察不同时期户籍收入差距的变化。研究涉及全年收入、全年工资收入和小时工资等核心变量,并进一步区分农业户籍身份与迁移人口身份,以避免将迁移人口收入溢价误判为户籍歧视的减弱或消失。
本资源整理了论文复现所需的 Stata 与 R 代码,涵盖 OLS 基准回归、DDML 双重去偏机器学习估计、Lewbel 工具变量稳健性检验、Oster 遗漏变量稳健性检验以及 Oaxaca-Blinder 收入差距分解等内容。整体流程适合用于学习机器学习方法在社会科学因果识别中的应用,也适合作为收入差距、户籍制度和劳动经济学方向的实证复现案例。
资源主要包括:数据处理思路、Stata 回归代码、R 端 DDML 估计代码、稳健性检验代码、结果表文件和整体复现说明。代码中调用处理后的 CGSS 数据文件,运行前需根据本地路径调整数据目录和工作目录
