
【C0013】基于FinBERT与DeepSeek的企业数字技术风险暴露程度衡量
项目概述
本项目基于 FinBERT 和 DeepSeek 大语言模型,构建企业数字技术风险暴露程度的自动化衡量指标。项目采用“大模型标注 + 小模型微调”的技术路线,实现对企业年报中数字技术风险的智能识别与分类。
核心思路
双阶段处理流程
一、大模型标注阶段
使用 GPT-4o-mini 和 DeepSeek 对 MD&A 文本进行风险标注,识别“风险暴露”和“风险防范”两个维度。
二、小模型微调阶段
基于标注结果微调 FinBERT 模型,构建轻量级但高效的风险分类器。
关键技术特色
定义完整的数字技术风险词典(数据风险、网络风险、具体技术风险)
支持多模型一致性验证,确保标注质量
严格的标签约束(是 / 否 / 不确定),避免噪声干扰
使用流程
一、数据准备
将
2023 年MD&A.xlsx文件放置在./data/FinBERT/目录下文件需包含四列:
- 股票代码(字符串)
- 股票简称
- 年份
- 管理层讨论文本内容
二、运行步骤
环境配置:安装
transformers、pandas、openai、tqdm等依赖库关键词匹配:代码自动从 MD&A 文本中提取包含风险关键词的句子
大模型标注:使用双模型并行标注,采用严格的一致性校验规则
模型训练:基于标注结果微调 FinBERT 模型,训练 5 个 epoch
模型评估:在验证集上评估模型性能(准确率可达 95% 以上)
输出结果
关键词匹配结果.xlsx:包含风险关键词的句子提取结果标注结果.xlsx:大模型自动标注的结果训练好的 FinBERT 模型:保存在
./data/FinBert/best_model/目录分类性能报告:包含准确率、精确率、召回率等指标
核心配置参数
模型选择:支持 GPT-4o-mini 和 DeepSeek 双模型标注
训练参数:
batch_size = 10learning_rate = 4e-5epochs = 5标签体系:消极 / 积极二分类,对应风险暴露程度
应用价值
该项目为研究企业数字技术风险提供了完整的文本分析工具,适用于企业风险管理研究、数字化转型影响分析、年报文本挖掘应用。
使用者只需准备好 MD&A 数据文件,即可一键运行获得企业数字技术风险暴露程度的量化指标。
参考文献
陆瑶, 施函青, 周欣怡. 中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J]. 经济研究, 2025, 60(02): 73-89.