【C0013】基于FinBERT与DeepSeek的企业数字技术风险暴露程度衡量

经济学 会计金融 管理科学
数据整理与描述分析 自然语言处理 机器学习与深度学习 大语言模型
Python
时间图标 2026-03-05
高级

项目概述

本项目基于 FinBERT 和 DeepSeek 大语言模型,构建企业数字技术风险暴露程度的自动化衡量指标。项目采用“大模型标注 + 小模型微调”的技术路线,实现对企业年报中数字技术风险的智能识别与分类。

核心思路

双阶段处理流程

一、大模型标注阶段

使用 GPT-4o-mini 和 DeepSeek 对 MD&A 文本进行风险标注,识别“风险暴露”和“风险防范”两个维度。

二、小模型微调阶段

基于标注结果微调 FinBERT 模型,构建轻量级但高效的风险分类器。

关键技术特色

  • 定义完整的数字技术风险词典(数据风险、网络风险、具体技术风险)

  • 支持多模型一致性验证,确保标注质量

  • 严格的标签约束(是 / 否 / 不确定),避免噪声干扰

使用流程

一、数据准备

  1. 将 2023 年MD&A.xlsx 文件放置在 ./data/FinBERT/ 目录下

  2. 文件需包含四列:
    - 股票代码(字符串)
    - 股票简称
    - 年份
    - 管理层讨论文本内容

二、运行步骤

  1. 环境配置:安装 transformerspandasopenaitqdm 等依赖库

  2. 关键词匹配:代码自动从 MD&A 文本中提取包含风险关键词的句子

  3. 大模型标注:使用双模型并行标注,采用严格的一致性校验规则

  4. 模型训练:基于标注结果微调 FinBERT 模型,训练 5 个 epoch

  5. 模型评估:在验证集上评估模型性能(准确率可达 95% 以上)

输出结果

  1. 关键词匹配结果.xlsx:包含风险关键词的句子提取结果

  2. 标注结果.xlsx:大模型自动标注的结果

  3. 训练好的 FinBERT 模型:保存在 ./data/FinBert/best_model/ 目录

  4. 分类性能报告:包含准确率、精确率、召回率等指标

核心配置参数

  • 模型选择:支持 GPT-4o-mini 和 DeepSeek 双模型标注

  • 训练参数

  • batch_size = 10

  • learning_rate = 4e-5

  • epochs = 5

  • 标签体系:消极 / 积极二分类,对应风险暴露程度

应用价值

该项目为研究企业数字技术风险提供了完整的文本分析工具,适用于企业风险管理研究、数字化转型影响分析、年报文本挖掘应用。

使用者只需准备好 MD&A 数据文件,即可一键运行获得企业数字技术风险暴露程度的量化指标。

参考文献

陆瑶, 施函青, 周欣怡. 中国企业数字技术风险暴露对企业价值的影响——来自大语言模型的文本分析证据[J]. 经济研究, 2025, 60(02): 73-89.


下载代码
兑换码获取图标 兑换码获取
文件名称: C00013.zip
文件大小: 141.44MB
更新时间: 2026-03-05