
【C0007】《世界经济》代码复现:基于新闻大数据与机器学习的中国银行业系统性风险研究
项目概述
本项目基于新闻大数据分析中国银行业的系统性风险,通过构建银行共现网络来量化各银行的系统重要性。代码复现了范小云等(2022)在《世界经济》发表的研究方法,提供从新闻数据到风险指标计算的完整流程。
核心思路
该方法的核心逻辑是:
如果两家银行经常在同一篇新闻报道中被同时提及,说明它们在市场认知或业务上存在关联。
通过分析大量新闻文本中银行的共现关系,构建银行关联网络,并利用复杂网络理论中的信息中心度指标来量化每家银行在整个网络中的重要性。
信息中心度越高的银行,其系统重要性越强,对金融稳定的影响也越大。
使用流程
1. 数据准备
将包含新闻内容的 CSV 文件:
all_articles.csv
放置在:
./data/
文件需包含两列:
date(发布日期)
content(新闻正文)
2. 环境配置
确保 Python 环境中已安装以下库:
pandas
networkx
jieba
matplotlib
seaborn
3. 运行分析
直接执行代码主流程。代码将自动完成以下步骤:
(1)文本预处理
使用正则表达式清洗文本
利用 jieba 分词识别新闻中出现的银行名称
(2)共现关系提取
统计同一篇新闻中任意两家银行的共现次数
构建银行关联关系数据集
(3)网络构建与可视化
按年度构建银行共现网络
生成年度银行共现热力图
绘制银行网络关系图
(4)中心度计算
基于电流网络模型计算每家银行的信息中心度
信息中心度即为银行系统重要性度量指标
4. 结果获取
分析完成后,程序将输出:
各银行年度信息中心度数据表
年度共现热力图
银行网络关系图
在网络图中:
信息中心度越高
节点尺寸越大
表示银行系统重要性越突出
输出结果
最终结果包括:
银行名称
年份
信息中心度指标
可视化网络结构图
结果可直接用于:
金融系统性风险研究
银行业关联结构分析
宏观审慎监管政策评估
金融稳定性监测
项目价值
提供从新闻文本到系统性风险指标的完整自动化流程
复现权威期刊实证研究方法
结合文本挖掘与复杂网络分析
计算结果具有学术可比性与政策参考价值
参考文献
范小云, 王业东, 王道平. 基于新闻大数据与机器学习的中国银行业系统性风险研究[J]. 世界经济, 2022, 45(04):3-30.

