[发明专利]多标签文本分类方法、装置、电子设备及存储介质在审
申请号: | 202210141446.0 | 申请日: | 2022-02-16 |
公开(公告)号: | CN114491047A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 罗霄 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田街道益田路5033号平安金融*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 文本 分类 方法 装置 电子设备 存储 介质 | ||
本发明涉及人工智能技术,揭露一种多标签文本分类方法,包括:计算文本集中每种文本类别对应的文本类别频率;根据文本类别的种类构建交叉熵损失函数;当获取训练集,将所述交叉熵损失函数转换为包含所述训练集中每种文本类别的文本出现频率的初始损失函数,将文本类别频率替换初始损失函数中对应文本类别的文本出现频率,得到目标损失函数;根据目标损失函数,利用训练集对预构建模型进行训练,得到文本识别模型;利用文本识别模型对待识别文本进行文本分类,得到文本识别类别。本发明还涉及一种区块链技术,所述文本类别频率可以存储在区块链节点中。本发明还提出一种多标签文本分类装置、设备以及介质。本发明可以提高多标签文本分类的准确率。
技术领域
本发明涉及人工智能技术,尤其涉及一种多标签文本分类方法、装置、电子设备及存储介质。
背景技术
文本分类是目前人工智能模型应用比较成熟的应用场景,但是模型训练过程中经常遇到类别不平衡问题,特别是多标签文本分类中,某个标签出现很多,某个标签出现很少。使得训练多标签文本分类模型过程中,会使训练参数偏向某一类,模型的训练精度低,从而导致多标签文本分类的准确率低。
发明内容
本发明提供一种多标签文本分类方法、装置、电子设备及存储介质,其主要目的在于提高了多标签文本分类的准确率。
获取文本集中文本的数量,其中,所述文本集中的每个文本都有对应的文本类别;
计算所述文本集中每种文本类别对应的文本类别频率;
构建将所述文本类别的种类作为分类数量的交叉熵损失函数;
当获取训练集时,将所述交叉熵损失函数转换为包含所述训练集中每种文本类别的文本出现频率的初始损失函数,并将所述文本类别频率替换所述初始损失函数中对应的文本类别的文本出现频率,得到所述目标损失函数,其中,所述训练集中每条训练文本都有对应的文本类别;根据所述目标损失函数,利用所述训练集对预构建的初始识别模型进行迭代训练,得到所述文本识别模型;
当获取待识别文本时,利用所述文本识别模型对所述待识别文本进行文本分类,得到文本识别类别。
可选地,所述计算所述文本集中每种文本类别对应的文本类别频率,包括:
计算所述文本集中每种所述文本类别对应的文本数量,得到文本类别数量;
根据所述文本类别数量及所述文本集中文本数量进行计算,得到每种所述文本类别对应的文本类别频率。
可选地,所述训练集为所述文本集的子集。
可选地,所述根据所述目标损失函数,利用所述训练集对预构建的初始识别模型进行迭代训练,得到所述文本识别模型,包括:
步骤A:利用所述初始识别模型对所述训练集进行预设次数的卷积池化操作,得到特征集;
步骤B:利用预设的激活函数对所述特征集中的每个特征数据进行计算,得到每个特征数据对应的标签分析值;
步骤C:根据所述特征数据对应的特征文本的文本类别确认对应的标签真实值,并利用所述目标损失函数计算所述标签分析值及所述标签真实值之间的损失值;
步骤D:若所述损失值大于或等于预设阈值,更新所述初始识别模型的参数,返回上述的步骤A;
步骤E:若所述损失值小于预设阈值,得到并输出所述文本识别模型。
可选地,所述利用所述初始识别模型对所述训练集进行预设次数的卷积池化操作,得到特征集,包括:
利用所述初始识别模型中的卷积层对所述训练集每个训练文本进行卷积,得到对应的卷积数据;
利用所述初始识别模型中的池化层对所述卷积数据进行平均池化,得到特征数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210141446.0/2.html,转载请声明来源钻瓜专利网。