
【C0008】用OLS、Lasso、Elastic Net三种方法测度CEO特质与企业数字化转型
项目概述
本代码用于分析 CEO 特征及企业控制变量对企业数字化转型指数的影响,采用三种回归方法进行对比研究,旨在识别关键影响因素并构建稳健的预测模型。
核心思路
1. 数据准备
使用包含以下信息的面板数据:
CEO 背景特征
企业财务指标
行业信息
年份信息
2. 模型选择
(1)OLS 回归
作为基准模型
分析变量之间的线性关系
适用于解释变量影响方向与显著性分析
(2)LASSO 回归
引入 L1 正则化
自动筛选重要特征
减少过拟合风险
提升模型简洁性
(3)Elastic Net 回归
结合 L1 与 L2 正则化
同时实现特征选择与共线性处理
在高维数据或多重共线性情况下表现更稳定
3. 评估指标
使用以下指标评估模型性能:
R²
调整 R²
MSE(均方误差)
RMSE(均方根误差)
MAE(平均绝对误差)
4. 结果可视化
生成系数路径图
展示不同正则化强度下变量系数变化趋势
分析变量在不同 λ 值下的稳定性
使用流程
1. 环境配置
安装依赖库:
pandas numpy statsmodels scikit-learn tqdm matplotlib
确保数据文件(如 CEO特征数据集.xlsx)位于:
./data/
2. 数据预处理
读取数据
清洗缺失值
构建变量结构:
因变量:数字化转型指数
CEO 特征变量
控制变量(如董事人数、研发投入等)
行业虚拟变量
年份虚拟变量
3. 运行模型
(1)OLS 回归流程
逐步加入 CEO 特征变量
加入控制变量
加入行业和年份固定效应
比较模型拟合优度变化
(2)LASSO / Elastic Net 回归流程
设置正则化参数:
LAMBDASL1_RATIOS自动标准化连续型控制变量
保留虚拟变量原始取值
训练模型
提取系数路径
4. 结果解读
查看回归结果表格:
系数估计值
t 统计量
显著性标记
分析 LASSO / Elastic Net 系数路径图:
识别稳定变量
判断变量重要性
对比不同模型:
调整 R²
各类误差指标
选择最优模型
注意事项
数据要求
数据需包含:
完整的 CEO 背景信息
企业财务指标
行业分类信息
年份分类信息
参数调整
LASSO / Elastic Net 中的
LAMBDAS与L1_RATIOS需根据数据特征进行调节
在稀疏性与稳定性之间取得平衡
模型选择建议
若变量存在多重共线性 → 优先使用 Elastic Net
若追求模型简洁性 → 可使用 LASSO
若重点关注经济解释与显著性 → 使用 OLS
项目价值
提供多模型对比分析框架
支持特征筛选与稳健性检验
适用于企业数字化转型相关实证研究
可扩展至其他企业行为或公司治理研究场景
参考文献:
易志高,刘逸飞,潘镇.CEO特质与企业数字化转型——基于机器学习的变量选择[J].系统工程理论与实践,2025,45(05):1462-1484.