[发明专利]行业分类模型训练、使用方法、装置、设备及介质在审
申请号: | 202011278739.0 | 申请日: | 2020-11-16 |
公开(公告)号: | CN112417150A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 罗奕康;聂砂;白彧斐;贾国琛;郑江 | 申请(专利权)人: | 建信金融科技有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 200120 上海市浦东新区中国(*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 行业 分类 模型 训练 使用方法 装置 设备 介质 | ||
1.一种行业分类模型的训练方法,其特征在于,所述方法包括:
基于行业分类标准的层级关系,将各级分类行业向所属二级分类行业的行业分类标签进行映射,得到行业分类训练数据样本;
采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签,对预设行业分类模型进行有监督训练,得到目标行业分类模型。
2.根据权利要求1所述的方法,其特征在于,将各级分类行业向所属二级分类行业的行业分类标签进行映射,包括:
将一级分类行业向多个二级分类行业的行业分类标签进行映射,得到一级分类行业下的多标签行业分类训练数据样本;
将二级分类行业向所述二级分类行业的行业分类标签进行映射,得到所述二级分类行业下的单标签行业分类训练数据样本;
将三级分类行业向所述三级分类行业所属二级分类行业的行业分类标签进行映射,得到所述三级分类行业下的单标签行业分类训练数据样本;
将四级分类行业向所述四级分类行业所属二级分类行业的行业分类标签进行映射,得到所述四级分类行业下的单标签行业分类训练数据样本。
3.根据权利要求1所述的方法,其特征在于,在将各级分类行业向所属二级分类行业的行业分类标签进行映射时,各级分类行业映射的行业分类标签标识号采用独热编码方式进行预处理。
4.根据权利要求1所述的方法,其特征在于,在采用行业分类训练数据样本以及所述行业分类训练数据样本中包括的行业分类标签之前,还包括:
对每一级分类行业下的行业分类训练数据样本进行样本数据扩充。
5.根据权利要求4所述的方法,其特征在于,对每一级分类行业下的行业分类训练数据样本进行样本数据扩充,包括:
采用SimBERT模型对每一级分类行业下的行业分类训练数据样本数据进行自然语言生成,得到新的行业分类训练数据样本数据,实现样本数据扩充。
6.根据权利要求4所述的方法,其特征在于,对每一级分类行业下的行业分类训练数据样本进行样本数据扩充,包括:
采用简单数据增强EDA方式,对每一级分类行业下的行业分类训练数据样本数据进行同义词替换、随机插入、随机交换以及随机删除操作,得到新的行业分类训练数据样本数据,实现样本数据扩充。
7.根据权利要求1所述的方法,其特征在于,所述预设行业分类模型为预训练语言模型BERT,且预训练语言模型BERT的权重经过微调处理。
8.根据权利要求7所述的方法,其特征在于,将预训练语言模型BERT的输出损失函数更改为变种softmax激活函数。
9.根据权利要求7所述的方法,其特征在于,将预训练语言模型BERT的输出损失函数更改为对应每一种行业分类sigmoid激活函数,计算每个行业分类的独立概率。
10.根据权利要求7所述的方法,其特征在于,在对预训练语言模型BERT进行训练时,每个Batch的样本数量为32,且输入文本的padding为39。
11.根据权利要求7所述的方法,其特征在于,在对预训练语言模型BERT进行训练时,将预训练语言模型BERT输出的CLS特征向量进行size为98的全连接层DENSE,并直接取出输出的logits喂入损失函数,以在模型收敛时确定损失函数的阈值。
12.一种行业分类模型的使用方法,其特征在于,所述行业分类模型采用权利要求1-11任一所述的行业分类模型的训练方法获得,所述使用方法包括:
从公文文本信息中得到一组文本输入序列;
将所述一组文本输入序列输入到所述行业分类模型中,通过所述行业分类模型输出对应的CLS特征向量输出序列;
依据所述CLS特征向量输出序列,确定与所述公文文本信息匹配的二级行业分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于建信金融科技有限责任公司,未经建信金融科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011278739.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:强化学习方法、装置、电子设备和存储介质
- 下一篇:一种干式智能管道压力检测仪