
【C0069】Heckman两阶段
经济学
会计金融
管理科学
计量经济学与因果推断
Stata
Heckman 两阶段模型简介
1. 模型背景
Heckman 两阶段模型(Heckman Correction Model),由 James Heckman 提出,主要用于解决样本选择偏差(Sample Selection Bias)问题。当因变量只能在特定条件下被观测到时(例如:只有就业的人才有工资数据,只有购买某商品的人才有消费金额数据),直接使用普通最小二乘法(OLS)回归会导致参数估计有偏且不一致。
2. 核心逻辑
该模型分为两个阶段:
第一阶段:选择方程 (Selection Equation)
- 目的:模拟个体进入样本的概率(例如:决定是否工作)。
- 方法:通常使用 Probit 模型。
- 关键产出:计算逆米尔斯比率 (Inverse Mills Ratio, IMR/Lambda)。IMR 捕捉了导致样本被选择的未观测因素。
- 要求:此阶段至少需要一个排除限制变量 (Exclusion Restriction)。即该变量影响“是否进入样本”,但不直接影响“结果变量”(例如:孩子数量可能影响母亲是否工作,但不直接影响其小时工资率)。
第二阶段:结果方程 (Outcome Equation)
- 目的:在控制选择偏差的情况下,解释因变量的变化。
- 方法:将第一阶段计算出的 IMR 作为一个额外的解释变量加入 OLS 回归中。
- 原理:如果 IMR 的系数显著不为零,说明存在显著的样本选择偏差;加入该项后,其他变量的系数即为修正后的无偏估计。
3. 代码文件 (main.do) 说明
提供的 main.do 文件包含以下流程:
- 数据模拟:构建了一个包含 1000 个观测值的虚拟数据集,人为制造了工资方程和就业选择方程之间的误差项相关性(即存在选择偏差)。
- Heckman 估计:使用 Stata 官方命令
heckman ..., twostep进行标准估计。 - 对比分析:
- 展示了直接对就业子样本做 OLS 的结果(通常是有偏的)。
- 展示了手动计算 IMR 并放入回归的手动两步法过程(用于教学理解)。
4. 适用场景
- 劳动经济学(工资决定、劳动供给)。
- 金融学研究(企业融资决策及融资规模)。
- 市场营销(消费者购买决策及购买金额)。
- 任何存在“截断数据”或“非随机缺失”的研究场景。