
【C0005】Python评估企业供应链风险:基于年报文本挖掘的实证研究方法复现
项目概述
本代码旨在复现一篇学术论文中提出的企业供应链风险文本挖掘方法。其核心思路是通过分析上市公司年报文本,构建一个量化的供应链风险指标。
核心思路
该方法基于一个关键假设:
若在年报的“管理层讨论与分析”(MD&A)部分,同时出现供应链相关词汇和风险相关词汇,且不带有积极情感,则表明企业正关注其供应链风险。
最终的风险指标(ChainRisk)计算公式为:
$$
ChainRisk = T{i,t} / N{i,t}
$$
其中:
T{i,t}:MD&A 中同时包含供应链词和风险词(且无积极词)的句子数量
N{i,t}:年报全文中所有包含风险词(且无积极词)的句子数量
该指标通过比例形式刻画企业供应链风险在整体风险表述中的相对重要性。
使用流程
1. 环境准备
确保 Python 环境中已安装以下库:
pandas
jieba
re
tqdm
collections
2. 文件放置
将提供的所有文件放置在正确的目录结构下。关键文件包括:
风险词典.xlsx
包含构建好的供应链主题词典和风险主题词典
大连理工大学中文情感词汇本体.xlsx
用于过滤积极情感词汇,避免误判
年报mda.csv
存储各家上市公司历年 MD&A 章节文本
年报全文.csv
存储各家上市公司历年完整年报文本
3. 运行代码
直接运行主程序。代码将自动完成以下步骤:
读取词典文件
读取年报文本数据
对文本进行分句与分词处理
匹配供应链词、风险词与积极情感词
计算各项文本指标
汇总并输出结果
4. 获取结果
程序运行完毕后,将生成包含以下指标的结果表格:
mda_sentences
annual_report_sentences
ti_sentences
ni_sentences
chain_risk
结果文件整合了原始数据与计算指标,可直接用于后续计量分析。
核心价值
提供从原始文本到量化指标的完整自动化流程
支持批量处理大量上市公司年报数据
方法可复现、逻辑清晰
有效提升文本数据转化为结构化变量的效率
使用者只需准备好所需的数据和词典文件,即可批量计算目标公司的供应链风险指标,为相关实证研究提供可靠的数据支持。
参考文献
蓝发钦, 胡晓敏, 国文婷, 等. 企业供应链风险与纵向并购决策之谜: 来自文本挖掘的经验证据[J]. 数量经济技术经济研究, 2025, 42(01):116-135.