【C0017】上市公司业务网络构建与中心性分析:基于5600+企业主营业务文本的嵌入方法

经济学 会计金融 管理科学
计量经济学与因果推断 自然语言处理 机器学习与深度学习 社会网络分析 大语言模型
Python
时间图标 2026-03-05
高级

一、项目概述

本系统基于机器学习与复杂网络方法,构建上市公司业务相似性网络,用于分析企业间的竞争关系。系统通过文本向量化和网络分析技术,量化企业业务相似度,为竞争格局研究提供数据支持。

二、核心思路

技术路线

  1. 文本向量化:使用 QWen 嵌入模型将上市公司主营业务描述转换为高维向量

  2. 相似度计算:基于余弦相似度度量企业间业务相似性

  3. 网络构建:应用“同业剔除”规则(相同行业公司不连接),保留相似度前 33% 的边

  4. 中心性分析:计算度中心性、接近中心性、特征向量中心性等网络指标

关键创新

  • 同业剔除机制:避免同行业内企业的直接比较,聚焦跨界竞争关系

  • 动态阈值设定:使用分位数阈值自适应确定网络连接标准

  • 多维度中心性:从不同角度识别网络中的关键节点

三、使用流程

数据准备

需要准备两个数据文件:

1. 上市公司主营业务文本数据.csv

  • 包含字段:证券代码、股票简称、统计截止日期、文本内容、年份

  • 数据要求:完整的主营业务描述文本,共 56,676 条原始记录

2. 上市公司 2024 年行业信息.xlsx

  • 包含字段:股票代码(字符串)、行业代码(字符串)

  • 用于行业匹配和同业剔除

运行步骤

  1. 环境配置:安装 pandasnumpyscikit-learntqdm 等依赖库

  2. 文本预处理:读取主营业务数据,进行文本清洗和归一化

  3. 向量化处理:使用 QWen 模型生成文本嵌入向量(约 33 分钟)

  4. 行业匹配:合并行业信息,标记制造业企业

  5. 网络构建:计算相似度矩阵,应用同业剔除规则

  6. 中心性计算:生成度中心性、接近中心性、特征向量中心性指标

  7. 结果输出:保存网络文件和中心性指标表格

输出结果

1. network.csv

业务相似网络边列表(约 460 万条边)

字段说明:

  • source(源节点)

  • target(目标节点)

  • weight(相似度权重)

2. 中心性指标表格

包含各网络中心度测量结果:

  • 度中心度

  • 接近中心度

  • 特征向量中心度

四、应用价值

该系统为以下研究提供技术支持:

  • 企业竞争格局分析

  • 产业链关联识别

  • 跨界竞争风险评估

  • 网络关键节点识别

使用者只需准备好符合格式要求的业务文本和行业分类数据,即可快速构建上市公司业务相似网络,为竞争分析提供量化工具。

参考文献

牛晓健, 强皓凡, 吕斌, 等. 企业跨界竞争与债务违约风险——基于机器学习与复杂网络方法[J]. 金融研究, 2024(03): 150-168.


下载代码
兑换码获取图标 兑换码获取
文件名称: C00017.zip
文件大小: 0.66MB
更新时间: 2026-03-05