【C119】基于 BERT 的专利摘要多标签二分类数据处理与训练流程

图情学
机器学习与深度学习
Python
时间图标 2026-05-19
高级

本项目围绕专利摘要文本的多标签二分类任务展开,展示了从原始数据读取、标签整理、数据集划分到 BERT 模型训练准备的完整流程。多标签二分类是指一个样本可以同时属于多个标签,每个标签独立判断是否存在,常见于专利分类、新闻主题识别、电影标签识别和科研文本标注等任务。


项目使用包含专利摘要和两个标签字段的数据集作为示例。代码首先读取原始专利文本数据,对缺失值进行处理,然后将摘要字段作为文本输入,将多个标签列作为 multi-hot 形式的输出标签。随后,项目使用多标签分层抽样方法划分训练集、验证集和测试集,以尽量保持不同标签在各数据集中的比例一致。


在模型部分,代码基于 Hugging Face Transformers 框架加载中文 BERT 模型,并设置 problem_type="multi_label_classification",使模型适用于多标签二分类任务。该项目适合作为专利文本自动分类、技术主题识别和多标签 NLP 建模的基础代码模板。


下载代码
兑换码获取图标 兑换码获取
文件名称: C0119.zip
文件大小: 0.01MB
更新时间: 2026-05-19