【C0012】《经济研究》:基于BERT模型识别上市公司劳动节约型技术创新

理工医 经济学 会计金融 管理科学 环境科学 法学 文史哲
自然语言处理 机器学习与深度学习 大语言模型
Python
时间图标 2026-03-05
中级

项目概述

本项目基于 BERT 架构实现专利文本的多标签自动分类,能够同时识别专利摘要中是否包含“直接节约”和“自动化替代”两类技术特征。项目提供从数据准备、模型训练到性能评估的完整流程。

核心思路

采用 ERNIE 3.0 中文预训练模型作为基础,通过微调适应专利文本分类任务。针对多标签分类的特点,使用 Sigmoid 函数替代传统的 Softmax,使每个标签独立判断。项目采用分层抽样确保训练集、验证集和测试集的标签分布均衡,并支持完整的模型评估指标计算。

使用流程

1. 数据准备

将 patent_data_set.csv 数据文件放置在 ./data/ 目录下。文件需包含三列:

  • 摘要(专利文本)

  • label1(直接节约标签)

  • label2(自动化替代标签)

标签值为 0 或 1。

2. 环境配置

安装 transformerspandasscikit-learntorch 等依赖库。代码会自动配置 HuggingFace 镜像加速模型下载。

3. 数据分割

运行代码会自动将 1500 条专利数据按 8:1:1 比例分割为:

  • 训练集(1200 条)

  • 验证集(150 条)

  • 测试集(150 条)

并保持各标签分布一致。

4. 模型训练

使用 ERNIE 3.0-base-zh 模型进行微调,默认训练 5 个 epoch,批处理大小为 10。训练过程会自动保存最佳模型到 ./data/BERT/best_model/ 目录。

5. 模型预测

提供预测函数,输入专利文本即可返回两个标签的预测概率和分类结果(阈值默认为 0.5)。

6. 性能评估

在测试集上自动计算精确率、召回率、F1 值等指标,生成学术论文格式的评估表格。

技术特色

  • 支持中文专利文本处理,最大长度 512 个字符

  • 多标签分类架构,可同时识别多个技术特征

  • 完整的模型训练和评估流水线

  • 提供详细的参数调优指南,帮助优化模型性能

该项目适用于专利分析、技术挖掘等应用场景,使用者只需准备好符合格式的专利数据,即可快速构建专业的文本分类模型。

参考文献:

刘青,肖柏高.劳动力成本与劳动节约型技术创新——来自AI语言模型和专利文本的证据[J].经济研究,2023,58(02):74-90.


下载代码
兑换码获取图标 兑换码获取
文件名称: C00012.zip
文件大小: 0.41MB
更新时间: 2026-03-05