
【C0071】负二项回归
经济学
会计金融
管理科学
计量经济学与因果推断
Stata
负二项回归 (Negative Binomial Regression)
概述
负二项回归是一种广义线性模型 (GLM),专门用于对计数型因变量 (Count Data) 进行建模。当数据表现出过离散 (Overdispersion) 特征时(即数据的方差显著大于均值),传统的泊松回归 (Poisson Regression) 往往不再适用,因为泊松分布假设均值等于方差。此时,负二项回归是更优的选择。
核心原理
负二项分布可以看作是泊松 - 伽马混合分布。它在泊松分布的基础上引入了一个离散参数 (通常记为 $\alpha$ 或 $\theta$),允许方差独立于均值变化。
其方差与均值的关系通常表示为:
$$ Var(Y) = \mu + \alpha \mu^2 $$
或者
$$ Var(Y) = \mu + \frac{\mu^2}{\theta} $$
其中:
- $\mu$ 是期望计数值 (均值)。
- $\alpha$ 或 $1/\theta$ 是离散参数。当 $\alpha \to 0$ (或 $\theta \to \infty$) 时,负二项分布收敛于泊松分布。
适用场景
- 流行病学:研究疾病发病次数,某些人群发病率波动极大。
- 生态学:统计特定区域内物种的数量,分布往往高度聚集。
- 保险精算:分析保单持有人的索赔次数,大多数人为 0,少数人有多次索赔。
- 社会科学:如个人每年的犯罪次数、发表论文数量等。
模型形式
链接函数通常采用对数链接 (Log Link):
$$ \log(\mu) = \beta_0 + \beta_1 X_1 + \dots + \beta_k X_k $$
这意味着自变量每增加一个单位,期望计数值将乘以 $e^{\beta_i}$。