[发明专利]一种文本分类模型的训练方法、装置、设备以及可读介质在审
申请号: | 202110210276.2 | 申请日: | 2021-02-25 |
公开(公告)号: | CN112883193A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 黄海龙 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/247;G06F40/279;G06F40/30;G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强 |
地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 分类 模型 训练 方法 装置 设备 以及 可读 介质 | ||
本申请实施例应用于人工智能领域,公开了一种文本分类模型的训练方法、装置、设备以及可读介质,包括:获取分类模型的有标样本集和无标样本集;对无标样本集中各第二文本数据进行文本增强处理,得到增强文本数据;将有标样本集、无标样本集和增强文本数据输入分类模型;根据有标样本集中各第一文本数据的预测的第一概率分布、各第二文本数据的预测的第二概率分布和增强文本数据的预测的第三概率分布确定的第一损失函数,和有标样本集和无标样本集,对分类模型进行训练;当第一损失函数满足训练结束条件时,确定目标文本分类模型。采用本申请实施例,可以提高模型训练的效率,提高业务迭代速度。本申请涉及区块链技术,上述数据可存储于区块链中。
技术领域
本发明涉及人工智能领域,尤其涉及一种文本分类模型的训练方法、装置、设备以及可读介质。
背景技术
随着文本信息的增长,文本分类已经成为处理文本信息的关键技术,在各个领域得到广泛的应用。例如,在人机对话领域,计算机设备可以接收到的用户说出的询问语句,对询问语句对应的文本信息进行分类,确定文本信息对应的分类之后,依据相应的分类,自动对用户的询问语句进行解答,并且可以推送相关的信息等等。而目前,对文本信息进行分类的方法中,最常见的是通过训练好的深度学习模型进行预测。其中,训练深度学习模型需要大量的有标注的语料。但是,由于线上的文本信息更新速度较快,若使用之前的模型,则效果不好。
解决方案一般是将日志中大量未标注的数据取出,等待标注团队标注完成,使用新的数据重新训练模型,得到更新参数后的模型,进而使用更新参数后的模型进行分类。但是,人工标注大量的语料效率低,导致业务迭代速度慢。
发明内容
本发明实施例提供一种文本分类模型的训练方法、装置、设备以及可读介质,可以提高模型训练的效率,从而提高业务迭代的速度。
第一方面,本申请实施例提供了一种文本分类模型的训练方法,包括:
获取初始分类模型的训练样本集,所述训练样本集包括有标记样本集和无标记样本集,所述有标记样本集包括多个第一文本数据,每个第一文本数据携带有类别标签,所述无标记样本集包括多个第二文本数据;
对所述无标记样本集中的每个第二文本数据进行文本增强处理,得到增强的无标记文本数据;
将所述有标记样本集、所述无标记样本集和所述增强的无标记文本数据分别输入所述初始分类模型,得到所述有标记样本集中每个第一文本数据的预测类别标签的第一概率分布、所述无标记样本集中每个第二文本数据的预测类别标签的第二概率分布、以及所述增强的无标记文本数据的预测类别标签的第三概率分布;
根据所述第一概率分布、所述第二概率分布和所述第三概率分布,确定第一损失函数,并根据所述第一损失函数和所述训练样本集,对所述初始分类模型进行迭代训练;
当所述第一损失函数满足训练结束条件时,确定所述第一损失函数满足训练结束条件时的初始分类模型为目标文本分类模型。
进一步地,所述根据所述第一概率分布、所述第二概率分布和所述第三概率分布,确定第一损失函数,包括:
根据预设的交叉熵计算所述第一概率分布和所述有标记样本集中每个第一文本数据对应的预设概率分布的第一差异度,并根据所述第一差异度确定第二损失函数;
根据所述预设的交叉熵计算所述第二概率分布和所述第三概率分布之间的第二差异度,并根据所述第二差异度确定第三损失函数;
根据所述第二损失函数和所述第三损失函数,确定所述第一损失函数。
进一步地,所述根据所述第二损失函数和所述第三损失函数,确定所述第一损失函数,包括:
根据预设的第一比例系数和所述第二损失函数,计算所述第一比例系数和所述第二损失函数的积,得到第一结果,所述第一比例系数为正数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110210276.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:建筑物太阳能板体组装系统
- 下一篇:一种多功能膝关节康复训练器