【C0008】用OLS、Lasso、Elastic Net三种方法测度CEO特质与企业数字化转型

经济学 会计金融 管理科学
数据整理与描述分析 计量经济学与因果推断 自然语言处理 机器学习与深度学习
Python
时间图标 2026-03-05
中级

项目概述

本代码用于分析 CEO 特征及企业控制变量对企业数字化转型指数的影响,采用三种回归方法进行对比研究,旨在识别关键影响因素并构建稳健的预测模型。


核心思路

1. 数据准备

使用包含以下信息的面板数据:

  • CEO 背景特征

  • 企业财务指标

  • 行业信息

  • 年份信息


2. 模型选择

(1)OLS 回归

  • 作为基准模型

  • 分析变量之间的线性关系

  • 适用于解释变量影响方向与显著性分析

(2)LASSO 回归

  • 引入 L1 正则化

  • 自动筛选重要特征

  • 减少过拟合风险

  • 提升模型简洁性

(3)Elastic Net 回归

  • 结合 L1 与 L2 正则化

  • 同时实现特征选择与共线性处理

  • 在高维数据或多重共线性情况下表现更稳定


3. 评估指标

使用以下指标评估模型性能:

  • 调整 R²

  • MSE(均方误差)

  • RMSE(均方根误差)

  • MAE(平均绝对误差)


4. 结果可视化

  • 生成系数路径图

  • 展示不同正则化强度下变量系数变化趋势

  • 分析变量在不同 λ 值下的稳定性


使用流程

1. 环境配置

安装依赖库:

pandas
numpy
statsmodels
scikit-learn
tqdm
matplotlib

确保数据文件(如 CEO特征数据集.xlsx)位于:

./data/

2. 数据预处理

  • 读取数据

  • 清洗缺失值

  • 构建变量结构:

  • 因变量:数字化转型指数

  • CEO 特征变量

  • 控制变量(如董事人数、研发投入等)

  • 行业虚拟变量

  • 年份虚拟变量


3. 运行模型

(1)OLS 回归流程

  • 逐步加入 CEO 特征变量

  • 加入控制变量

  • 加入行业和年份固定效应

  • 比较模型拟合优度变化

(2)LASSO / Elastic Net 回归流程

  • 设置正则化参数:

  • LAMBDAS

  • L1_RATIOS

  • 自动标准化连续型控制变量

  • 保留虚拟变量原始取值

  • 训练模型

  • 提取系数路径


4. 结果解读

  • 查看回归结果表格:

  • 系数估计值

  • t 统计量

  • 显著性标记

  • 分析 LASSO / Elastic Net 系数路径图:

  • 识别稳定变量

  • 判断变量重要性

  • 对比不同模型:

  • 调整 R²

  • 各类误差指标

  • 选择最优模型


注意事项

数据要求

数据需包含:

  • 完整的 CEO 背景信息

  • 企业财务指标

  • 行业分类信息

  • 年份分类信息


参数调整

  • LASSO / Elastic Net 中的 LAMBDAS 与 L1_RATIOS

  • 需根据数据特征进行调节

  • 在稀疏性与稳定性之间取得平衡


模型选择建议

  • 若变量存在多重共线性 → 优先使用 Elastic Net

  • 若追求模型简洁性 → 可使用 LASSO

  • 若重点关注经济解释与显著性 → 使用 OLS


项目价值

  • 提供多模型对比分析框架

  • 支持特征筛选与稳健性检验

  • 适用于企业数字化转型相关实证研究

  • 可扩展至其他企业行为或公司治理研究场景


参考文献

易志高,刘逸飞,潘镇.CEO特质与企业数字化转型——基于机器学习的变量选择[J].系统工程理论与实践,2025,45(05):1462-1484.


下载代码
兑换码获取图标 兑换码获取
文件名称: C0008.zip
文件大小: 2.04MB
更新时间: 2026-03-05