【C0017】上市公司业务网络构建与中心性分析：基于5600+企业主营业务文本的嵌入方法

经济学会计金融管理科学

计量经济学与因果推断自然语言处理机器学习与深度学习社会网络分析大语言模型

Python

2026-03-05

高级

一、项目概述

本系统基于机器学习与复杂网络方法，构建上市公司业务相似性网络，用于分析企业间的竞争关系。系统通过文本向量化和网络分析技术，量化企业业务相似度，为竞争格局研究提供数据支持。

二、核心思路

技术路线

文本向量化：使用 QWen 嵌入模型将上市公司主营业务描述转换为高维向量
相似度计算：基于余弦相似度度量企业间业务相似性
网络构建：应用“同业剔除”规则（相同行业公司不连接），保留相似度前 33% 的边
中心性分析：计算度中心性、接近中心性、特征向量中心性等网络指标

关键创新

同业剔除机制：避免同行业内企业的直接比较，聚焦跨界竞争关系
动态阈值设定：使用分位数阈值自适应确定网络连接标准
多维度中心性：从不同角度识别网络中的关键节点

三、使用流程

数据准备

需要准备两个数据文件：

1. 上市公司主营业务文本数据.csv

包含字段：证券代码、股票简称、统计截止日期、文本内容、年份
数据要求：完整的主营业务描述文本，共 56,676 条原始记录

2. 上市公司 2024 年行业信息.xlsx

包含字段：股票代码（字符串）、行业代码（字符串）
用于行业匹配和同业剔除

运行步骤

环境配置：安装 pandas、numpy、scikit-learn、tqdm 等依赖库
文本预处理：读取主营业务数据，进行文本清洗和归一化
向量化处理：使用 QWen 模型生成文本嵌入向量（约 33 分钟）
行业匹配：合并行业信息，标记制造业企业
网络构建：计算相似度矩阵，应用同业剔除规则
中心性计算：生成度中心性、接近中心性、特征向量中心性指标
结果输出：保存网络文件和中心性指标表格

输出结果

1. network.csv

业务相似网络边列表（约 460 万条边）

字段说明：

source（源节点）
target（目标节点）
weight（相似度权重）

2. 中心性指标表格

包含各网络中心度测量结果：

度中心度
接近中心度
特征向量中心度

四、应用价值

该系统为以下研究提供技术支持：

企业竞争格局分析
产业链关联识别
跨界竞争风险评估
网络关键节点识别

使用者只需准备好符合格式要求的业务文本和行业分类数据，即可快速构建上市公司业务相似网络，为竞争分析提供量化工具。

参考文献

牛晓健, 强皓凡, 吕斌, 等. 企业跨界竞争与债务违约风险——基于机器学习与复杂网络方法[J]. 金融研究, 2024(03): 150-168.

排名	证券代码	股票简称	度中心性值
1	600051	宁波联合	0.7795
2	300922	天秦装备	0.7731
3	600846	同济科技	0.7664
4	000151	中成股份	0.7649
5	600756	浪潮软件	0.7501

下载代码

兑换码获取

文件名称： C00017.zip

文件大小： 0.66MB

更新时间： 2026-03-05

订阅代码会员