[发明专利]一种基于混合注意力的层级多标签文本分类方法在审

申请号：	202210216140.7	申请日：	2022-03-07
公开（公告）号：	CN114896388A	公开（公告）日：	2022-08-12
发明（设计）人：	马小林;钟港;旷海兰;刘新华	申请（专利权）人：	武汉理工大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06K9/62;G06F40/30;G06F40/289;G06F40/242;G06F40/216;G06F40/183;G06F40/151;G06F40/126;G06N3/04
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	王琪
地址：	430070 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于混合注意力层级标签文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于混合注意力的层级多标签文本分类方法，其特征在于，该方法包括以下步骤：

步骤S1，对数据集D中的多标签文本数据进行预处理；

步骤S2，针对文本标签，获取层级分类体系的先验层级信息，所述先验层级信息指的是标签之间互相依赖的先验概率，可以通过计算父标签与子标签之间的转移概率得到；

步骤S3，构建深度学习层级多标签文本分类模型；

所述深度学习多标签文本分类模型包括词嵌入模块，文本编码模块，标签编码模块，基于标签注意力机制文本表示模块，基于自注意力机制的文本表示模块，特征融合模块，向量回归层，关系网络模块和标签概率预测层；

步骤S4，输入数据集预处理后的文本数据到模型训练，模型训练完成之后，利用训练好的模型对多标签文本进行分类。

2.根据权利要求1所述的基于标签注意的层级多标签文本分类方法，其特征在于：在步骤S1中，对数据集D中文本数据进行预处理，具体包括如下步骤：

步骤1.1，进行分词、去除停止词、去除标点符号；

步骤1.2，统计数据集D中的文本中的单词频率word_frequence，删除出现次数小于X1的单词，将过滤后的单词记录，构建单词表。

数据集D经过预处理后，将数据集D按一定比例划分为训练集，验证集，测试集。

3.根据权利要求1所述的基于标签注意的层级多标签文本分类方法，其特征在于：步骤S2的具体实现包括；

对于数据集D中的数据，假设父节点v_i和子节点v_j之间存在层次路径e_i，j，那么由父子节点路径构成的边的特征f(e_i，j)由先验概率p(U_j|U_i)和p(U_i|U_j)表示：

f(e_i，j)表示的是两个节点的关系，这种关系用两个节点的转移概率或者共现概率来描述，两个节点的转移概率分别包括父节点到某一个子节点的转移概率p(U_j|U_i)，子节点到父节点的转移概率p(U_i|U_j)，式中，U_j和U_i分别表示文本数据被标记为v_j节点标签及被标记为v_i节点标签，p(U_j|U_i)是给定v_i情况下被标记为v_j节点标签的条件概率，P(U_j∩U_i)是{v_j，v_i}同时被标记的概率，N_j和N_i分别表示训练集中v_j节点标签及v_i节点标签的数量。

4.根据权利要求3所述的基于标签注意的层级多标签文本分类方法，其特征在于：步骤S3中，通过词嵌入模块对输入文本及其标签进行词嵌入处理，词嵌入处理方法具体为：

步骤2.1、获得预处理后的文本序列，通过查询词嵌入字典表将文本中的单词{x₁，x₂，...，x_n}转换为词向量表示{w₁，w₂，...，w_n}；

步骤2.2、获得层级多标签文本分类的标签集{l₁，l₂，...，l_n}，通过kaiming编码的方式，将标签集转换成一个维度为d的标签嵌入集{c₁，c₂，...，c_n}，n指的是预处理后的文本的单词数量；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉理工大学，未经武汉理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210216140.7/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于混合注意力的层级多标签文本分类方法在审

专利文献下载