【C0012】《经济研究》：基于BERT模型识别上市公司劳动节约型技术创新

理工医经济学会计金融管理科学环境科学法学文史哲

自然语言处理机器学习与深度学习大语言模型

Python

2026-03-05

中级

项目概述

本项目基于 BERT 架构实现专利文本的多标签自动分类，能够同时识别专利摘要中是否包含“直接节约”和“自动化替代”两类技术特征。项目提供从数据准备、模型训练到性能评估的完整流程。

采用 ERNIE 3.0 中文预训练模型作为基础，通过微调适应专利文本分类任务。针对多标签分类的特点，使用 Sigmoid 函数替代传统的 Softmax，使每个标签独立判断。项目采用分层抽样确保训练集、验证集和测试集的标签分布均衡，并支持完整的模型评估指标计算。

将 patent_data_set.csv 数据文件放置在 ./data/ 目录下。文件需包含三列：

标签值为 0 或 1。

安装 transformers、pandas、scikit-learn、torch 等依赖库。代码会自动配置 HuggingFace 镜像加速模型下载。

运行代码会自动将 1500 条专利数据按 8:1:1 比例分割为：

并保持各标签分布一致。

使用 ERNIE 3.0-base-zh 模型进行微调，默认训练 5 个 epoch，批处理大小为 10。训练过程会自动保存最佳模型到 ./data/BERT/best_model/ 目录。

提供预测函数，输入专利文本即可返回两个标签的预测概率和分类结果（阈值默认为 0.5）。

在测试集上自动计算精确率、召回率、F1 值等指标，生成学术论文格式的评估表格。

该项目适用于专利分析、技术挖掘等应用场景，使用者只需准备好符合格式的专利数据，即可快速构建专业的文本分类模型。

参考文献：

刘青,肖柏高.劳动力成本与劳动节约型技术创新——来自AI语言模型和专利文本的证据[J].经济研究,2023,58(02):74-90.

指标/维度	精确率	召回率	F1值	样本量
定义1：直接节约	0.880	0.957	0.917	46
定义2：自动化替代	0.929	0.956	0.942	68
整体/宏平均	0.904	0.956	0.929	114

下载代码

兑换码获取

文件名称： C00012.zip

文件大小： 0.41MB

更新时间： 2026-03-05