[发明专利]一种基于卷积神经网络和注意力机制的文本情感分类算法有效
申请号: | 201810459139.0 | 申请日: | 2018-05-15 |
公开(公告)号: | CN108664632B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 董敏;汤雪;毕盛 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06N3/04 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 注意力 机制 文本 情感 分类 算法 | ||
1.一种基于卷积神经网络和注意力机制的文本情感分类算法,其特征在于,包括以下步骤:
1)建立包含多种卷积和池化的卷积神经网络,使用情感分类文本进行训练,得到第一个模型;
2)建立加入残差连接和非线性的多头点积注意力机制,使用情感分类文本进行训练,得到第二个模型;
3)对两个模型进行模型融合,得到文本最终的情感分类,其具体如下:
使用Bagging的模型融合方法,对两个模型进行模型融合,得到文本的最终类别;假定数据集的类别数目为K,对于特定的样本x,第一个模型预测样本x属于各个类别的概率为p1=[p1,p2,...,pK],其融合权重为λ1;第二个模型预测样本x属于各个类别的概率为p2=[p1,p2,...,pK],其融合权重为λ2;对于特定的样本x,其最终的预测属于各个类别的概率为p=λ1p1+λ2p2;对于特定的样本x,其最终预测类别为预测其属于各个类别的概率向量p中最大值对应的索引值
2.根据权利要求1所述的一种基于卷积神经网络和注意力机制的文本情感分类算法,其特征在于:在步骤1)中,建立包含多种卷积和池化的卷积神经网络,包含以下步骤:
1.1)建立两种不同类型的卷积,第一种卷积的卷积核为整体卷积核,匹配整个词向量,第二种卷积的卷积核为单维卷积核,就是在词向量的每一维上进行匹配;假设句子输入sent∈Rlen×Dim是len个词语序列,每一个词语由Dim维词向量表示,senti∈RDim代表词语序列中第i个词向量,senti:j代表第i到j个包括第j个词向量的连接,代表第i个词向量的第k维,代表第i到j个包括第j个词向量的第k维;假设一个整体卷积核为w∈Rws×Dim,其滑窗宽度为ws,b∈R为偏置,h为激活函数;当卷积核w应用于输入词语序列sent,w和sent内每一个长度为ws的词向量窗口进行内积,加上偏置值b,应用激活函数h,得到第一种卷积的输出向量c1∈R1+len-ws,其中第i项等于c1[i]=h(w⊙senti:i+ws-1+b),i∈[1,1+len-ws],⊙表示内积;假设一个应用于词向量的第k维的单维卷积核为单维卷积wk,wk∈Rws×1,ws为滑窗宽度,bk为偏置,h为激活函数;卷积核wk的输出向量ck∈R1+len-ws,其中第i项等于合并词向量所有维度的输出向量,得到第二种卷积的最终输出c2=[c1,c2,...,cDim];
1.2)对卷积层两种卷积的输出c1和c2分别进行最大池化和平均池化;假设第一种卷积的输出向量c1∈R1+len-ws最大池化后的输出为平均池化后的输出为假设对第二种卷积的输出矩阵c2∈R(1+len-ws)×Dim的第j个词向量维度上的向量c2[j]∈R1+len-ws进行最大池化后的结果为平均池化后的结果为对这两个值进行按位相减,再进行绝对值操作,abs表示绝对值操作,得到输出为pj;合并所有维度的结果,得到输出向量为p∈RDim;假设对p进行最大池化,得到第二种卷积的最大池化后的最终输出为平均池化后的最终输出为连接两种卷积的四个池化输出值和得到池化层的最终输出向量表示连接操作;
1.3)在卷积层使用不同滑窗宽度ws的卷积核。
3.根据权利要求1所述的一种基于卷积神经网络和注意力机制的文本情感分类算法,其特征在于:在步骤2)中,所述多头点积注意力机制由多头注意力机制和点积注意力机制组成,所述多头注意力机制是指并性地做多次注意力,所述点积注意力机制是指使用点积计算输入每个时刻的注意力权重的注意力机制,建立加入残差连接和非线性的多头点积注意力机制,包括以下步骤:
2.1)建立加入残差连接和非线性的点积注意力机制;假设句子输入s∈Rlen×Dim是len个词语序列,每一个词语由Dim维词向量表示,si∈RDim代表词语序列中第i个词向量;假设第i个词向量的输入向量si的权重为w,对其进行内积,wi=w⊙si,⊙表示内积;获得每个词向量的注意力权重wi后,对其进行归一化,αi=softmax(wi),αi表示归一化后的第i个词向量的注意力权重;得到归一化的注意力概率后,加入残差连接,第i个词向量的输出向量vi=αisi+si,即将权重αi与输入si相乘后,再加上输入si本身;再进行非线性变换,得到第i个词向量的输出向量vi=relu(vi),relu(x)表示非线性relu函数;最后,对所有词向量的输出向量进行求和,得到最终的点积注意力机制输出向量其中v∈RDim;
2.2)并性地做多次注意力;根据步骤2.1),多次建立加入残差连接和非线性的点积注意力机制,假设第j个注意力机制的权重为wj,其输出向量为vj,对所有注意力机制的输出向量进行连接,得到多头点积注意力机制的最终输出向量表示连接操作,其中h表示多头注意力机制中的注意力个数,即并行地做多次注意力的次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810459139.0/1.html,转载请声明来源钻瓜专利网。