
【C0012】《经济研究》:基于BERT模型识别上市公司劳动节约型技术创新
项目概述
本项目基于 BERT 架构实现专利文本的多标签自动分类,能够同时识别专利摘要中是否包含“直接节约”和“自动化替代”两类技术特征。项目提供从数据准备、模型训练到性能评估的完整流程。
核心思路
采用 ERNIE 3.0 中文预训练模型作为基础,通过微调适应专利文本分类任务。针对多标签分类的特点,使用 Sigmoid 函数替代传统的 Softmax,使每个标签独立判断。项目采用分层抽样确保训练集、验证集和测试集的标签分布均衡,并支持完整的模型评估指标计算。
使用流程
1. 数据准备
将 patent_data_set.csv 数据文件放置在 ./data/ 目录下。文件需包含三列:
摘要(专利文本)label1(直接节约标签)label2(自动化替代标签)
标签值为 0 或 1。
2. 环境配置
安装 transformers、pandas、scikit-learn、torch 等依赖库。代码会自动配置 HuggingFace 镜像加速模型下载。
3. 数据分割
运行代码会自动将 1500 条专利数据按 8:1:1 比例分割为:
训练集(1200 条)
验证集(150 条)
测试集(150 条)
并保持各标签分布一致。
4. 模型训练
使用 ERNIE 3.0-base-zh 模型进行微调,默认训练 5 个 epoch,批处理大小为 10。训练过程会自动保存最佳模型到 ./data/BERT/best_model/ 目录。
5. 模型预测
提供预测函数,输入专利文本即可返回两个标签的预测概率和分类结果(阈值默认为 0.5)。
6. 性能评估
在测试集上自动计算精确率、召回率、F1 值等指标,生成学术论文格式的评估表格。
技术特色
支持中文专利文本处理,最大长度 512 个字符
多标签分类架构,可同时识别多个技术特征
完整的模型训练和评估流水线
提供详细的参数调优指南,帮助优化模型性能
该项目适用于专利分析、技术挖掘等应用场景,使用者只需准备好符合格式的专利数据,即可快速构建专业的文本分类模型。
参考文献:
刘青,肖柏高.劳动力成本与劳动节约型技术创新——来自AI语言模型和专利文本的证据[J].经济研究,2023,58(02):74-90.