【C0013】基于FinBERT与DeepSeek的企业数字技术风险暴露程度衡量

经济学会计金融管理科学

数据整理与描述分析自然语言处理机器学习与深度学习大语言模型

Python

2026-03-05

高级

项目概述

本项目基于 FinBERT 和 DeepSeek 大语言模型，构建企业数字技术风险暴露程度的自动化衡量指标。项目采用“大模型标注 + 小模型微调”的技术路线，实现对企业年报中数字技术风险的智能识别与分类。

核心思路

双阶段处理流程

一、大模型标注阶段

使用 GPT-4o-mini 和 DeepSeek 对 MD&A 文本进行风险标注，识别“风险暴露”和“风险防范”两个维度。

二、小模型微调阶段

基于标注结果微调 FinBERT 模型，构建轻量级但高效的风险分类器。

关键技术特色

定义完整的数字技术风险词典（数据风险、网络风险、具体技术风险）
支持多模型一致性验证，确保标注质量
严格的标签约束（是 / 否 / 不确定），避免噪声干扰

使用流程

一、数据准备

将 2023 年MD&A.xlsx 文件放置在 ./data/FinBERT/ 目录下
文件需包含四列：
- 股票代码（字符串）
- 股票简称
- 年份
- 管理层讨论文本内容

二、运行步骤

环境配置：安装 transformers、pandas、openai、tqdm 等依赖库
关键词匹配：代码自动从 MD&A 文本中提取包含风险关键词的句子
大模型标注：使用双模型并行标注，采用严格的一致性校验规则
模型训练：基于标注结果微调 FinBERT 模型，训练 5 个 epoch
模型评估：在验证集上评估模型性能（准确率可达 95% 以上）

输出结果

关键词匹配结果.xlsx：包含风险关键词的句子提取结果
标注结果.xlsx：大模型自动标注的结果
训练好的 FinBERT 模型：保存在 ./data/FinBert/best_model/ 目录
分类性能报告：包含准确率、精确率、召回率等指标

核心配置参数

模型选择：支持 GPT-4o-mini 和 DeepSeek 双模型标注
训练参数：
batch_size = 10
learning_rate = 4e-5
epochs = 5
标签体系：消极 / 积极二分类，对应风险暴露程度

应用价值

该项目为研究企业数字技术风险提供了完整的文本分析工具，适用于企业风险管理研究、数字化转型影响分析、年报文本挖掘应用。

使用者只需准备好 MD&A 数据文件，即可一键运行获得企业数字技术风险暴露程度的量化指标。

参考文献

陆瑶, 施函青, 周欣怡. 中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J]. 经济研究, 2025, 60(02): 73-89.

训练轮次	训练损失	验证损失	准确率
1	0.5807	0.3189	0.8531
2	0.3979	0.2083	0.9548
3	0.0462	0.1933	0.9379
4	0.0065	0.2186	0.9548
5	0.0693	0.2460	0.9435

下载代码

兑换码获取

文件名称： C00013.zip

文件大小： 141.44MB

更新时间： 2026-03-05

订阅代码会员