
【C0088】LASSO glmnet
经济学
管理科学
新闻传播
计量经济学与因果推断
R
LASSO 回归简介 (基于 glmnet)
什么是 LASSO?
LASSO (Least Absolute Shrinkage and Selection Operator) 是一种正则化回归方法。它在普通最小二乘法 (OLS) 的损失函数基础上,增加了一个 L1 惩罚项(系数绝对值之和)。
其目标函数为:
$$ \min_{\beta} \left( \sum_{i=1}^{n} (y_i - \beta_0 - \sum_{j=1}^{p} x_{ij}\beta_j)^2 + \lambda \sum_{j=1}^{p} |\beta_j| \right) $$
其中 $\lambda$ (Lambda) 是控制惩罚力度的参数。
核心特点
- 特征选择:与 Ridge 回归 (L2 惩罚) 不同,LASSO 可以将不重要的特征系数直接压缩为 0,从而实现自动特征选择。
- 防止过拟合:通过限制系数的大小,降低模型复杂度,提高在未知数据上的泛化能力。
- 处理高维数据:特别适用于特征数量 ($p$) 大于样本数量 ($n$) 的情况。
关于 glmnet 包
glmnet 是 R 语言中实现广义线性模型正则化路径的最流行包。它使用坐标下降算法高效地计算整个正则化路径上的解。在本示例中,我们利用 cv.glmnet 函数通过 K 折交叉验证自动寻找最优的 $\lambda$ 值,以平衡偏差和方差。