[发明专利]一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法有效
申请号: | 202110656931.7 | 申请日: | 2021-06-11 |
公开(公告)号: | CN113190681B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 张志庆;冯时;张一飞;王大玲 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/2411;G06F18/22;G06N3/0464;G06N3/08 |
代理公司: | 北京佰智蔚然知识产权代理有限公司 37285 | 代理人: | 王砚雷 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 胶囊 网络 记忆 注意力 细粒度 文本 分类 方法 | ||
本发明提供一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,本方法是根据用户对事物或事物的某一方面发表的主观性评论文本以及该事物或该事物某一方面的关键词或关键短语,对该主观性文本在这个事物或这个事物的某一方面上的情感倾向进行分类的一种方法。本发明所提出一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,能够达到提升模型建模复杂文本能力和提高模型对不同复杂度任务的适应能力的目的。
技术领域
本发明属于人工智能自然语言处理领域,具体涉及一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法。
背景技术
自然语言处理中的文本分类是指将文本根据其表达的内容归为事先定义好的一个或几个类别的任务,是一种序列到类别的任务,具体应用有垃圾评论识别、黄反识别、标签提取、文章分类和情感分析等等。根据分类的对象可以分为对主题分类和对情感分类。对主题分类是分析文本讨论的客观内容,将文本归类为不同的主题,而对情感分类则是对带有主观情感倾向的文本进行分析,将其对文本中所涉及事物的情感分类为正向、负向或中立。根据处理文本粒度的不同,按粒度从大到小,又可以分为文档级、句子级、短语级、词级以及方面级文本分类,分别是对一整个文档、一个完整的句子、一个句法短语、一个句法词或者文本中涉及到的事物的某一方面进行分类。对主题分类的粒度级别大多为文档级和句子级,粒度较大,而对情感分类的粒度则包含了所有的粒度级别,其中词级和方面级的文本分类由于其粒度级别较小,称为细粒度文本分类。
目前主流的细粒度文本分类神经网络模型分为五种:基于序列建模的文本分类,基于卷积神经网络的文本分类,基于注意力机制的文本分类以及基于胶囊网络的文本分类。
细粒度的文本分类不同于文档级和句子级这种粗粒度的文本分类,粗粒度的文本分类需要将文本分类为整个文本表达的最主要的主题倾向和情感倾向,而细粒度的文本分类则需要对一个词或者文本所涉及到的实体的某一方面进行分类,由于细粒度文本分类大多为对情感进行分类,所以细粒度文本分类任务大多为情感分析任务。由于分类目标的粒度较小,当序列长度较长时,相关上下文占文本总量的比重较小,增加了从整个文本中找出与情感目标相关的上下文的难度;细粒度文本分类的难点在于,一段文本可能包含多个情感目标,或者,一段文本包含对应多个情感目标的不同的观点词,这种局部文本上情感目标与观点词的交叉重叠现象才是细粒度文本分类或者细粒度情感分析的难点。对于这种复杂的局部文本的建模,基于卷积神经网络的文本分类方法和基于胶囊网络的文本分类方法由于其对局部特征良好的建模能力,被广泛应用在细粒度文本分类任务中。
但是,现有的基于胶囊网络的文本分类方法与基于卷积神经网络的文本分类方法并没有本质上的区别,在对文本特征进行处理的过程中,没有利用到不同抽象层次的文本特征,然而,由于现有的基于胶囊网络的文本分类方法在情感目标词与上下文交互方式上的技术限制,无法对文本特征进行不同层次的抽象,使得模型缺乏对复杂文本的建模能力,以及针对不同语料库和不同任务的模型泛化问题。
发明内容
针对现有技术的不足,本发明提出一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,以达到提升模型建模复杂文本能力和提高模型对不同复杂度任务的适应能力的目的。为实现上述目的,本发明的技术方案如下:
一种基于胶囊网络遮罩记忆注意力的细粒度文本分类方法,包括如下步骤:
步骤1、从文本分类任务的数据集中获取一个样本,包含需要进行分类的上下文文本C、由一个或多个词语组成的情感目标短语A以及对应的情感类别;
步骤2、对获取的上下文文本C和情感目标短语A做填充处理,使所有样本中的上下文文本长度一致,情感目标短语长度一致;
步骤3、使用预训练词向量初始化词向量表,查询词向量表,将上下文文本C和情感目标短语A由词序列转化为词向量序列,得到上下文文本和情感目标短语的分布式表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110656931.7/2.html,转载请声明来源钻瓜专利网。