[发明专利]一种结合注意力机制的深度学习多分类情感分析模型有效
申请号: | 201910553755.7 | 申请日: | 2019-06-25 |
公开(公告)号: | CN110287320B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 刘磊;孙应红;陈浩;李静 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种结合注意力机制的深度学习多分类情感分析模型,属于自然语言处理技术领域,本发明分析了现有CNN网络和LSTM网络在文本情感分析方面的弱点,提出了一种结合注意力机制的深度学习多分类情感分析模型。该模型运用注意力机制将CNN网络提取的局部特征和LSTM模型提取的语序特征相融合,并在分类层采用集成模型的思想,分别将CNN网络和LSTM网络提取的情感特征拼接,作为模型最终提取的情感特征。通过对比实验,发现该模型的准确率有了显著的提高。 | ||
搜索关键词: | 一种 结合 注意力 机制 深度 学习 分类 情感 分析 模型 | ||
【主权项】:
1.一种结合注意力机制的深度学习多分类情感分析方法,其特征在于包括以下步骤:步骤(1)数据预处理设情感数据集表示为:G=[(segtxt1,y1),(segtxt2,y2),...,(segtxtN,yN)],其中,segtxti表示第i个样本,yi则为对应的情感类别标签,N表示数据集G中样本个数,对G中样本进行数据预处理,数据集G经预处理后,表示为G′=[(seg1,y1),(seg2,y2),...,(segM,yM)],其中:segi表示为数据集G′中第i个样本,yi则为对应的情感类别标签,M表示数据集G′中样本个数;步骤(2)构建模型的输入对于数据集G′中任意一个待分析样本数据(seg,y),将其进一步细化表示为:seg=[w1,w2,...,wi,...,wd]T (1)y=[0,0,1,...,0] (2)其中:wi∈Rε是指依据词表wordList对待分析文本中第i词语的one‑hot编码,ε为词表wordList的大小,d表示该文本的句长,y∈Rp是依据情感类别的one‑hot编码,p表示模型待分的类别数目,则该样本的词向量嵌入矩阵可表示为:X=seg*ET (3)其中:X∈Rd×m,X=[x1,x2,...,xd]T为待分析文本的词向量矩阵表示,m为词向量的维度,xi∈Rm为该文本中第i个词汇的词向量表示,E为词向量嵌入层表示;步骤(3)构建深度学习多分类情感分析模型深度学习多分类情感分析模型包括基于CNN网络的局部特征提取阶段和基于LSTM网络的语序关系特征提取阶段,将基于CNN网络的局部特征提取阶段的池化层结果CCnn和基于LSTM网络的语序关系特征提取阶段的结果C'Rnn拼接,即向量[CCnn;C'Rnn]作为模型最终提取的特征向量,然后将特征向量[CCnn;C'Rnn]经过全连接层得到最终的模型输出向量
其中p表示模型待分的类别数目,所述的基于CNN网络的局部特征提取阶段,包括以下内容:局部特征提取阶段输入为公式3的待分析文本的词向量矩阵表示X;局部特征提取阶段基于CNN网络,一共包括两层,即一层卷积层、一层池化层,其中:卷积层采用n种不同尺度的卷积核对待分析文本进行卷积,且同一尺度卷积核的滤波器即神经元各k个;池化层采用最大池化层的方法将卷积所得的向量做下采样,选出局部最优特征,因此每个滤波器通过最大池化层变为一个标量,该标量代表着该滤波器中最优的情感特征;局部特征提取模块的输出为CCnn=[c1,c2,...,cnk],即将池化层中不同尺寸的多个滤波器选取的最优特征拼接到一起CCnn=[c1,c2,...,cnk]作为本模块的输出,其中,CCnn∈Rnk,nk为卷积层中所有滤波器的个数;所述的基于LSTM网络的语序关系特征提取阶段,包括以下内容:多尺度CNN网络局部特征提取:将基于CNN网络的局部特征提取阶段中卷积层同一卷积尺度的k个滤波器的卷积结果拼接,得到集合ZCnn,然后将集合ZCnn中的每个向量Zi输入到GLU机制中,即门控卷积网络,得到的结果记为{π1,π2,...,πn},完成多尺度CNN网络局部特征的提取,其中,ZCnn={Z1,Z2,...,Zn},Zi为尺度为i的多个滤波器卷积结果的拼接;其中,
Zi代表某一尺度的k个滤波器卷积结果的拼接,W1,W2∈Rλ×q为权重矩阵,λ表示对应权重矩阵的维度,b1,b2∈Rq为偏置量,σ表示sigmoid函数,πi∈Rq,q为LSTM网络的输出维度;然后,利用注意力机制,将多尺度CNN网络局部特征提取结果{π1,π2,...,πn}融入到LSTM网络中,得到基于LSTM网络的语序关系特征提取阶段的输出结果C'Rnn,即
其中,
表示待分析文本中最后一个词语所对应的LSTM模块的输出,
表示待分析文本中第一个词语所对应的LSTM模块的输出,本发明采用双向LSTM模型,即BiLSTM模型,
采用正向传播,具体计算过程如下:d为待分析文本的长度,该文本中每一个词语顺序对应一个LSTM模块,,正向传播过程中,第t‑1个LSTM模块的输出为
则第t个LSTM模块的输出
计算公式如下:
其中:
是两个向量的点乘,也称打分函数,是用来计算前一词语的LSTM的输出
和当前局部特征向量的相似度,
其中:αt,i∈R代表特征πi的权重,
其中:st‑1∈Rq是多个卷积特征的加权结果,利用st‑1代替
结合当前词语的词向量xt求得当前LSTM模块的输出
公式如下:![]()
采用反向传播,具体计算过程与正向传播一样,此处不再赘述;步骤(4)模型训练:将训练数据输入多分类情感分析模型,采用交叉熵损失函数,结合反向传播BP算法调整参数,利用softmax回归作为分类算法,完成训练;步骤(5)模型分析:将待分析文本输入训练完成的模型,最终输出对该文本分析后的情感分类结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910553755.7/,转载请声明来源钻瓜专利网。