
【C0022】Ridge回归
经济学
管理科学
机器学习与深度学习
Python
Ridge 回归简介
Ridge 回归(岭回归)是一种专用于共线性数据分析的有偏估计回归方法。它实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。
核心原理
Ridge 回归在普通最小二乘法(OLS)的损失函数基础上,增加了一个 L2 正则化项(即系数的平方和乘以惩罚参数 alpha):
$$ Loss = \sum_{i=1}^{n} (y_i - \hat{y}i)^2 + \alpha \sum \beta_j^2 $$}^{p
其中:
- 第一部分是残差平方和(RSS)。
- 第二部分是 L2 惩罚项。
- $\alpha$ (alpha) 是正则化强度参数。当 $\alpha = 0$ 时,Ridge 回归退化为普通线性回归;当 $\alpha$ 很大时,系数会被压缩接近于 0,但不会完全等于 0。
主要特点
- 处理多重共线性:当特征之间存在高度相关性时,OLS 估计的方差会很大,Ridge 回归通过引入偏差显著减小方差,提高模型的泛化能力。
- 系数收缩:它会将回归系数向零收缩,防止过拟合,尤其适用于特征数量多于样本数量或特征间存在强相关性的场景。
- 保留所有特征:与 Lasso 回归不同,Ridge 回归不会将系数压缩为严格的零,因此它不具备特征选择功能,所有特征都会保留在模型中。
适用场景
- 数据集存在多重共线性问题。
- 需要防止模型过拟合。
- 认为所有特征对目标变量都有一定贡献,不希望剔除任何特征。