[发明专利]文本多标签分类方法、装置、设备及存储介质有效
申请号: | 202110702628.6 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113435308B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 方俊波 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06V30/40 | 分类号: | G06V30/40;G06V30/19;G06V10/82;G06N3/045;G06N3/06 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标签 分类 方法 装置 设备 存储 介质 | ||
本发明涉及智能决策领域,揭露一种文本多标签分类方法,包括:提取文本集中每个文本对应的文本标签,得到文本标签集;对文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个文本标签簇构建对应的聚类标签;对聚类标签进行筛选,得到聚类标签集;过滤文本集中不属于聚类标签集中聚类标签对应的文本标签簇的文本标签,利用过滤后的文本集训练模型得到目标标签分类模型;当接收待分类文本时,利用目标标签分类模型对待分类文本进行标签分类,得到分类结果。本发明还涉及一种区块链技术,所述文本标签可以存储在区块链节点中。本发明还提出一种文本多标签分类装置、设备以及介质。本发明可以提高文本多标签分类的效率。
技术领域
本发明涉及智能决策领域,尤其涉及一种文本多标签分类方法、装置、电子设备及可读存储介质。
背景技术
大规模文本多元标签分类是从大量的标签集中寻找最相关标签的任务,目前的文本多元标签分类主要是依托深度学习模型进行分类。
但是在训练深度学习模型的过程中,因训练数据中标签种类特别多,很多标签数据稀缺,标签价值较低,导致模型训练计算量非常大,训练的模型参数较多,从而导致应用模型进行多元标签分类时速度较慢,降低了文本多标签分类的效率。
发明内容
本发明提供一种文本多标签分类方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高文本多标签分类的效率。
为实现上述目的,本发明提供的一种文本多标签分类方法,包括:
获取文本集,提取所述文本集中每个文本对应的文本标签,得到文本标签集;
对所述文本标签集进行聚类,得到一个或者多个文本标签簇,并为每个所述文本标签簇构建对应的聚类标签;
将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签,得到标签替换文本集;
按照预设的数据分配比例,将所述标签替换文本集划分为第一文本集和第二文本集;
利用所述第一文本集对预构建的第一深度学习模型进行训练,得到初始标签分类模型;
利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集;
选取所述聚类标签集中每个聚类标签对应的文本标签簇,得到目标文本标签簇;
过滤所述文本集中不属于所述目标文本标签簇的文本标签,利用过滤后的所述文本集对预构建的第二深度学习模型进行迭代训练,得到目标标签分类模型;
当接收待分类文本时,利用所述目标标签分类模型对所述待分类文本进行标签分类,得到分类结果。
可选地,所述对所述文本标签集进行聚类,得到一个或者多个文本标签簇,包括:
对所述文本标签集中的每个文本标签进行向量化处理,得到文本标签向量;
计算任意两个所述文本标签向量的向量距离;
利用所述向量距离对所述文本标签集中的所有文本标签进行聚类,得到一个或者多个文本标签簇。
可选地,所述利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到对应的识别标签,包括:
利用所述初始标签分类模型对所述第二文本集中每个文本进行标签识别,得到每个所述聚类标签对应的识别概率;
选取所述识别概率大于预设阈值的聚类标签,得到所述识别标签。
可选地,所述利用所述识别标签对所述聚类标签进行筛选,得到聚类标签集,包括:
汇总所述识别标签,得到识别标签集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110702628.6/2.html,转载请声明来源钻瓜专利网。