[发明专利]文本多标签分类方法、装置、设备及存储介质有效

申请号：	202110702628.6	申请日：	2021-06-24
公开（公告）号：	CN113435308B	公开（公告）日：	2023-05-30
发明（设计）人：	方俊波	申请（专利权）人：	平安国际智慧城市科技股份有限公司
主分类号：	G06V30/40	分类号：	G06V30/40;G06V30/19;G06V10/82;G06N3/045;G06N3/06
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东省深圳市前海深港合***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本标签分类方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及智能决策领域，揭露一种文本多标签分类方法，包括：提取文本集中每个文本对应的文本标签，得到文本标签集；对文本标签集进行聚类，得到一个或者多个文本标签簇，并为每个文本标签簇构建对应的聚类标签；对聚类标签进行筛选，得到聚类标签集；过滤文本集中不属于聚类标签集中聚类标签对应的文本标签簇的文本标签，利用过滤后的文本集训练模型得到目标标签分类模型；当接收待分类文本时，利用目标标签分类模型对待分类文本进行标签分类，得到分类结果。本发明还涉及一种区块链技术，所述文本标签可以存储在区块链节点中。本发明还提出一种文本多标签分类装置、设备以及介质。本发明可以提高文本多标签分类的效率。

技术领域

本发明涉及智能决策领域，尤其涉及一种文本多标签分类方法、装置、电子设备及可读存储介质。

背景技术

大规模文本多元标签分类是从大量的标签集中寻找最相关标签的任务，目前的文本多元标签分类主要是依托深度学习模型进行分类。

但是在训练深度学习模型的过程中，因训练数据中标签种类特别多，很多标签数据稀缺，标签价值较低，导致模型训练计算量非常大，训练的模型参数较多，从而导致应用模型进行多元标签分类时速度较慢，降低了文本多标签分类的效率。

发明内容

本发明提供一种文本多标签分类方法、装置、电子设备及计算机可读存储介质，其主要目的在于提高文本多标签分类的效率。

为实现上述目的，本发明提供的一种文本多标签分类方法，包括：

获取文本集，提取所述文本集中每个文本对应的文本标签，得到文本标签集；

对所述文本标签集进行聚类，得到一个或者多个文本标签簇，并为每个所述文本标签簇构建对应的聚类标签；

将所述文本集中的每个文本的文本标签替换为所属文本标签簇对应的聚类标签，得到标签替换文本集；

按照预设的数据分配比例，将所述标签替换文本集划分为第一文本集和第二文本集；