
【C0017】上市公司业务网络构建与中心性分析:基于5600+企业主营业务文本的嵌入方法
一、项目概述
本系统基于机器学习与复杂网络方法,构建上市公司业务相似性网络,用于分析企业间的竞争关系。系统通过文本向量化和网络分析技术,量化企业业务相似度,为竞争格局研究提供数据支持。
二、核心思路
技术路线
文本向量化:使用 QWen 嵌入模型将上市公司主营业务描述转换为高维向量
相似度计算:基于余弦相似度度量企业间业务相似性
网络构建:应用“同业剔除”规则(相同行业公司不连接),保留相似度前 33% 的边
中心性分析:计算度中心性、接近中心性、特征向量中心性等网络指标
关键创新
同业剔除机制:避免同行业内企业的直接比较,聚焦跨界竞争关系
动态阈值设定:使用分位数阈值自适应确定网络连接标准
多维度中心性:从不同角度识别网络中的关键节点
三、使用流程
数据准备
需要准备两个数据文件:
1. 上市公司主营业务文本数据.csv
包含字段:证券代码、股票简称、统计截止日期、文本内容、年份
数据要求:完整的主营业务描述文本,共 56,676 条原始记录
2. 上市公司 2024 年行业信息.xlsx
包含字段:股票代码(字符串)、行业代码(字符串)
用于行业匹配和同业剔除
运行步骤
环境配置:安装
pandas、numpy、scikit-learn、tqdm等依赖库文本预处理:读取主营业务数据,进行文本清洗和归一化
向量化处理:使用 QWen 模型生成文本嵌入向量(约 33 分钟)
行业匹配:合并行业信息,标记制造业企业
网络构建:计算相似度矩阵,应用同业剔除规则
中心性计算:生成度中心性、接近中心性、特征向量中心性指标
结果输出:保存网络文件和中心性指标表格
输出结果
1. network.csv
业务相似网络边列表(约 460 万条边)
字段说明:
source(源节点)target(目标节点)weight(相似度权重)
2. 中心性指标表格
包含各网络中心度测量结果:
度中心度
接近中心度
特征向量中心度
四、应用价值
该系统为以下研究提供技术支持:
企业竞争格局分析
产业链关联识别
跨界竞争风险评估
网络关键节点识别
使用者只需准备好符合格式要求的业务文本和行业分类数据,即可快速构建上市公司业务相似网络,为竞争分析提供量化工具。
参考文献
牛晓健, 强皓凡, 吕斌, 等. 企业跨界竞争与债务违约风险——基于机器学习与复杂网络方法[J]. 金融研究, 2024(03): 150-168.