【C119】基于 BERT 的专利摘要多标签二分类数据处理与训练流程

图情学

机器学习与深度学习

Python

2026-05-19

高级

本项目围绕专利摘要文本的多标签二分类任务展开，展示了从原始数据读取、标签整理、数据集划分到 BERT 模型训练准备的完整流程。多标签二分类是指一个样本可以同时属于多个标签，每个标签独立判断是否存在，常见于专利分类、新闻主题识别、电影标签识别和科研文本标注等任务。

项目使用包含专利摘要和两个标签字段的数据集作为示例。代码首先读取原始专利文本数据，对缺失值进行处理，然后将摘要字段作为文本输入，将多个标签列作为 multi-hot 形式的输出标签。随后，项目使用多标签分层抽样方法划分训练集、验证集和测试集，以尽量保持不同标签在各数据集中的比例一致。

在模型部分，代码基于 Hugging Face Transformers 框架加载中文 BERT 模型，并设置 problem_type="multi_label_classification"，使模型适用于多标签二分类任务。该项目适合作为专利文本自动分类、技术主题识别和多标签 NLP 建模的基础代码模板。

下载代码

兑换码获取

文件名称： C0119.zip

文件大小： 0.01MB

更新时间： 2026-05-19

订阅代码会员