[发明专利]基于改进GraphRNN的多标签文本分类系统及分类方法有效
申请号: | 202110853595.5 | 申请日: | 2021-07-28 |
公开(公告)号: | CN113297385B | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 刘汉东;钟学燕;陈雁;王欣 | 申请(专利权)人: | 西南石油大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126;G06F40/289;G06N3/04 |
代理公司: | 四川猫博思知识产权代理有限公司 51334 | 代理人: | 张辉 |
地址: | 610500 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 graphrnn 标签 文本 分类 系统 方法 | ||
本发明公开了一种基于改进GraphRNN的多标签文本分类系统及分类方法,所述分类系统包括编码器、由改进GraphRNN构成的解码器和Graph2Seq模块构成;采用上述系统对多标签文本分类方法如下:步骤1:将原始样本的标签集转换为标签图;步骤2:文本预处理,包括分词、词语向量化、划分数据集;步骤3:划分数据集,分为训练集、验证集、测试集;步骤4:训练分类系统,在验证集上调整超参数前驱节点数,再在测试集上测试;步骤5:将新样本送入训练好的分类系统,预测对应的标签结果。本发明将多标签分类转换为图生成问题,可缓解标签顺序带来的影响,图生成分为节点生成和边生成,可分别建模标签关联和标签关联程度。
技术领域
本发明属于信息技术领域,涉及自然语言处理、文本分类及多标签分类,具体涉及一种基于改进GraphRNN的多标签文本分类系统及分类方法。
多标签分类是机器学习领域中一个重要的学习任务,被广泛应用于文本分类、图像标注、推荐系统等实际场景。在多标签分类问题中,样本可以被分配到多个标签上。假设样本空间,表示维的实数空间,标签空间,表示某个标签,,当前数据集为,表示样本总数,表示某样本输入信息,表示某样本对应的标签。多标签分类任务就是从数据中学习一个决策函数,使得每个文本被分配到一组标签上去。当标签空间较大时,输出空间会出现指数级增长,而利用标签关联可以减小多标签分类难度。
从利用标签关联的角度出发,目前多标签分类方法主要可分为三种:1、一阶方法,典型算法如Binary Relevance、ML-KNN,这类方法简单有效,但忽略了标签关联;2、二阶方法,典型算法如Rank-SVM、Calibrated Label Ranking,这类方法只考虑标签对两两之间的联系,如排序问题中相关标签和不相关标签的排列关系;3、高阶方法,这类方法能建模多个标签之间的关联,但需要预定义顺序,存在累计误差,典型的传统算法如ClassifierChains、Ensemble Classifier Chains。
在以上三类方法中,目前围绕高阶方法展开的研究居多。由于循环神经网络在处理序列数据上的表现优异,近年来不少研究利用循环神经网络建模标签高阶关联,在序列到序列(Sequence to Sequence,Seq2Seq)模型下将多标签分类转换为序列生成问题,但模型易受标签顺序影响。为缓解标签顺序带来的影响,有研究将多标签分类视为标签集合预测,但无法区分标签关联程度,而标签间关联应有不同程度之分。
总的来说,现有的多标签分类方法,在建模标签高阶关联时,要么受标签顺序限制,要么没有考虑标签关联的具体程度。
发明内容
本发明针对多标签分类中如何利用标签关联的问题,提出了一种基于改进GraphRNN的多标签文本分类系统及分类方法,根据标签共现关系构建标签图数据,将多标签分类转换为标签图生成问题,可避免预定义标签顺序;利用标签共现信息,建模标签关联程度,可以更细致地建模标签关联。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于改进GraphRNN的多标签文本分类系统,所述分类系统包括编码器、解码器和Graph2Seq模块,输入信息由编码器进行编码,送入解码器生成标签图,再由Graph2Seq模块将生成的标签图转换为标签集;
所述解码器由改进GraphRNN构成,具体是:基于GraphRNN图生成模型并对其进行改进,改进GraphRNN由节点生成和边生成组成,其中,所述节点生成添加softmax模块后生成标签节点,建模标签关联,所述边生成由二分类改为多分类,建模标签不同的关联程度,具体如下:
所述节点生成为:
节点生成以“BOS”作为初始输入节点,第时刻,输入包括、、,输出为节点概率分布,表示预测当前时刻节点为不同标签的概率,为当前时刻预测节点,为当前时刻以前预测出的所有节点,为单个样本的文本信息;为前一时刻预测节点的嵌入信息,为“BOS”的嵌入信息,为预测当前时刻节点时通过注意力机制从编码信息中获得的上下文信息,为前一时刻的隐状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南石油大学,未经西南石油大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110853595.5/2.html,转载请声明来源钻瓜专利网。