[发明专利]基于迭代网络的文本多标签分类方法、装置及电子设备在审

申请号：	202110844880.0	申请日：	2021-07-26
公开（公告）号：	CN113704466A	公开（公告）日：	2021-11-26
发明（设计）人：	莫永卓;卢炳干;胡茂海;胡碧峰;张俊峰	申请（专利权）人：	和美（深圳）信息技术股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/289;G06N3/04;G06N3/08
代理公司：	北京锺维联合知识产权代理有限公司 11579	代理人：	安娜
地址：	518040 广东省深圳市福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于网络文本标签分类方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及文本分类技术领域，公开了一种基于迭代网络的文本多标签分类方法、装置及电子设备，能够学习到标签之间的相关性和不相关性，提高多标签分类的准确性，该方法包括：将待处理文本转换为编码向量S₁；将所述编码向量S₁输入标签预测模型，获得标签L₁；其中，标签预测模型输出的标签包括N个维度，每个维度的取值表征待处理文本是否属于对应的类别；通过如下迭代方式依次获得标签L₂,...L_N：基于编码向量S_n‑1和标签L_n‑1，获得编码向量S_n，将编码向量S_n输入所述标签预测模型，获得标签L_n，其中n为大于1的整数；基于标签L_N确定待处理文本所属的类别。

技术领域

本申请涉及文本分类技术领域，尤其涉及一种基于迭代网络的文本多标签分类方法、装置及电子设备。

背景技术

自动文本分类，简称为文本分类，是指计算机将一篇文章归于预先给定的某一类或某几类的过程。目前文本分类在信息检索、Web文档自动分类、自动文摘、文本过滤等多个领域已经得到了初步的应用。常用的多标签分类算法主要可以分为两类，一类是基于问题转化的方法PT(Problem Transformation)，另一类是基于算法转化的方法AA(AlgorithmAdaptation)。PT类方法的主要目标是将一个多标签分类问题转化成一个或一组单标签分类问题，从而运用己有的单标签分类方法解决该问题，这种方法的缺点是没有考虑标签之间的相关性，当标签之间存在较强的相关性时效果较差。AA方法的主要目标是，通过改变已有的单标签分类算法，使其能够处理多标签数据，对于一条预测数据，这类方法会生成该数据在标签集合上的概率分布，并通过一个阈值函数来确定最终的标签。

发明内容

本申请实施例提供一种基于迭代网络的文本多标签分类方法、装置、电子设备及存储介质，能够学习到标签之间的相关性和不相关性，提高多标签分类的准确性。

一方面，本申请一实施例提供了一种基于迭代网络的文本多标签分类方法，包括：

将待处理文本转换为编码向量S₁；

将所述编码向量S₁输入标签预测模型，获得标签L₁；其中，所述标签预测模型输出的标签包括N个维度，每个维度的取值表征所述待处理文本是否属于对应的类别；

通过如下迭代方式依次获得标签L₂,...L_N：基于编码向量S_n-1和标签L_n-1，获得编码向量S_n，将编码向量S_n输入所述标签预测模型，获得标签L_n，其中n为大于1的整数；

基于标签L_N确定所述待处理文本所属的类别。

可选地，所述基于编码向量S_n-1和标签L_n-1，获得编码向量S_n，包括：

获得标签L_n-1对应的向量表示；

将所述编码向量S_n-1和标签L_n-1对应的向量表示相加，以获得编码向量S_n。

可选地，所述标签预测模型包括至少一层简单网络和输出层，所述至少一层简单网络用于从输入的编码向量中提取语义特征，所述输出层用于根据提取的语义特征输出标签。

可选地，所述简单网络为transformer、attention、CNN、RNN、pool中的至少一种。