[发明专利]基于CNN-BiMGU模型的短文本情感分类方法在审
申请号: | 202011306987.1 | 申请日: | 2020-11-20 |
公开(公告)号: | CN112417098A | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 殷洁;章韵 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 cnn bimgu 模型 文本 情感 分类 方法 | ||
本发明公开了一种基于CNN‑BiMGU模型的短文本情感分类方法,属于深度学习和自然语言处理技术领域。CNN‑BiMGU模型主要包括嵌入层、卷积层、池化层、BiMGU层、注意力机制层、全连接层和分类层,其中,嵌入层将包含商品评论的数据集编码为词向量,卷积层通过CNN通道从词向量中提取文本特征矩阵,池化层对文本特征矩阵进行降维,BiMGU层用来获取隐藏状态向量,注意力机制层用来强化重要信息,全连接层用于拼接池化层和注意力机制层的输出,分类层用来分类获取最后的情感类别。本发明的CNN‑BiMGU模型将CNN通道和BiMGU通道并联,克服了CNN通道忽略特征前后联系的缺点,通过在BiMGU通道融入注意力机制,突出了上下文语义特征中的重要特征,提升短文本情感分类的准确性。
技术领域
本发明涉及一种基于CNN-BiMGU模型的短文本情感分类方法,属于深度学习和自然语言处理技术领域。
背景技术
文本情感分析是指利用自然语言处理和文本挖掘技术,对带有情感色彩的主观性文本进行分析、处理和抽取的过程。目前,文本情感分类研究涉及多个领域,包括自然语言处理、机器学习、信息抽取和信息检索等,得到了许多研究者的关注。购物平台中的网络评论,对于商家而言,可以帮助他们及时了解商品的优缺点并做出相应改进,从而为消费者提供更好的服务,进一步提高了店铺的销量并获得更好的收益;对于用户而言,准确获取其他用户评论的情感倾向能够为自己做出选择和决策提供帮助。商品评论大多字数较少,文本简洁,且包含着消费者的主观意识,对这类短文本进行情感分类研究有着很大的学术价值以及直观的商业价值。
常见的情感分类方法有两种:第一种是基于情感词典的分类方法,第二种是基于机器学习的分类方法。前者需要借助情感词典和情感常识库等第三方的情感资源,后者大多利用的是统计学的方法,将词语编码成向量,通过提取句子的特征进行分类。
将神经网络运用于情感分类中,不需要人工做大量的特征提取,神经网络能够自动提取重要特征,其基本思想是将文本对应的特征向量作为输入,通过多层网络的学习获得情感分类的非线性映射。卷积神经网络(CNN)能够实现句子级别的文本分类,但提取到的只是局部特征,忽略了特征的前后联系。长短期记忆网络(LSTM)能够有效提取长距离上下文的语义信息,但是结构复杂,需要耗费大量的时间和内存空间,虽然达到了较好的分类效果,但是训练效率较低。
MGU是一种最少门结构模型,能够决定记忆单元保留上一级记忆状态和提取当前输入特征的程度,是RNN的扩展。相比传统的RNN模型,MGU模型可以有效解决梯度消失问题和长期依赖缺失问题。单向MGU模型只能在一个方向上处理数据,双向MGU模型相比于单向MGU模型在准确率和召回率上均有明显的提升,弥补了单向MGU对后文依赖性不足的缺点。
有鉴于此,需要针对现有单一卷积神经网络和长短期记忆网络进行改进,以解决上述问题。
发明内容
本发明的目的在于提供一种基于CNN-BiMGU模型的短文本情感分类方法,该方法可以突出重要特征,提升文本情感分类的准确性,有效解决复杂的特征工程。
为实现上述目的,本发明提供了一种基于CNN-BiMGU模型的短文本情感分类方法,其中,CNN-BiMGU模型包括嵌入层、卷积层、池化层、BiMGU层、注意力机制层、全连接层和分类层,该基于CNN-BiMGU模型的短文本情感分类方法主要包括以下步骤:
步骤1、利用嵌入层对包含商品评论的数据集进行预处理,通过BERT模型训练语料集将数据集编码为词向量;
步骤2、将步骤1得到的词向量输入到卷积层并进行卷积操作,通过提取局部特征得到文本特征矩阵;
步骤3、将步骤2得到的文本特征矩阵输入到池化层进行特征降维处理,采用最大池化操作获取主要特征;
步骤4、将步骤1得到的词向量输入到BiMGU层,以获取隐藏状态向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011306987.1/2.html,转载请声明来源钻瓜专利网。