[发明专利]一种基于局部与全局互注意力机制的文本分类方法有效
| 申请号: | 201910091937.7 | 申请日: | 2019-01-30 |
| 公开(公告)号: | CN109902293B | 公开(公告)日: | 2020-11-24 |
| 发明(设计)人: | 马千里;余柳红;陈子鹏;田帅 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/33;G06F16/35;G06N3/04 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 局部 全局 注意力 机制 文本 分类 方法 | ||
1.一种基于局部与全局互注意力机制的文本分类方法,其特征在于,所述的文本分类方法包括以下步骤:
S1、获取文本数据集,对数据进行预处理,把文本序列的每个单词映射为词向量;
S2、使用双向长短期记忆网络来捕获文本序列的全局长期依赖,同时,使用多尺度卷积神经网络提取文本序列的局部语义特征;其中,所述的步骤S2中并行提取文本序列的全局长期依赖和局部语义特征,过程如下:
S2.1、使用双向长短期记忆网络提取全局长期依赖,在时间步t,单个方向的隐藏层状态ht更新如下:
ct=ft⊙ct-1+it⊙gt
ht=ot⊙tanh(ct)
其中,ht-1是时间步t-1的单个方向长短期记忆网络隐藏层状态,kglo为单向长短期记忆网络的隐藏层状态维度,xt是时间步t的输入,it、ft、ot分别是单向长短期记忆网络的输入门、遗忘门和输出门;gt是细胞临时状态,ct是细胞状态,σ、tanh是非线性激活函数,⊙是逐元素的乘法,M是由可训练参数组成的仿射变换函数;
将文本序列以正向输入到长短期记忆网络中,并获得前向隐藏层状态
将文本序列以反方向输入长短期记忆网络,更新后向隐藏层状态隐藏层状态的两个方向连接如下:
其中,t=1,2,...,T,T是输入时间步的长度,是拼接操作,表示时间步t的全局长期依赖;
拼接每个时间步的隐藏层状态向量形成矩阵,其定义如下:
其中,是文本序列的全局长期依赖矩阵,T是输入时间步的长度,kglo为单向长短期记忆网络的隐藏层状态维度,H的每列表示文本序列对应位置处的全局长期依赖;
S2.2、使用多尺度卷积神经网络提取局部语义特征,令为卷积运算的卷积核,其中,w为卷积核的宽度,d是卷积核的高度,其值等于输入维度,kloc是卷积核的数量,对于位置i的单词,卷积操作表示为:
其中,b表示偏置项,xi-w/2+1:i+w/2指词向量表示xi-w/2+1,...,xi,...,xi+w/2的拼接,*是卷积运算,f是非线性变换函数,是文本序列位置i处的kloc维局部w元特征向量,卷积核应用于文本序列的每个位置,使用零填充以生成与输入相同长度的特征映射:
其中,是文本序列每个位置的局部语义特征矩阵,是使用相同大小的窗口进行卷积得到的局部语义特征矩阵;接下来使用多尺度卷积神经网络,使用不同大小的窗口进行卷积操作,假设r是窗口w的数量,得到r个卷积操作的结果,拼接起来得到局部语义特征矩阵
S3、构建一种局部与全局互注意力机制,使用步骤S2中提取的全局长期依赖和每个位置的局部语义特征作为输入,用局部语义特征关注全局长期依赖产生局部指导的全局注意力权重,进行加权得到加权全局特征,用全局长期依赖关注局部语义特征产生全局指导的局部注意力权重,进行加权得到加权局部特征;其中,所述的步骤S3中构建局部与全局互注意力机制的过程如下:
S3.1、采用局部与全局互注意力机制,将步骤S2中提取的全局长期依赖H和局部语义特征C作为输入,线性映射到较低维度k中,映射m次,m是局部与全局互注意力机制的子空间数目,将H和C映射到不同的子空间i:
其中,是投影参数矩阵,i=1,2,...,m;
S3.2、使用局部语义特征指导全局长期依赖,根据局部语义特征的每个位置计算全局长期依赖的全局注意力上下文,公式如下:
其中,i=1,2,...,m,是第i个子空间的全局注意力上下文,Ai∈RT×T是全局注意力权重,接着拼接每一个子空间的全局注意力上下文,得到加权全局特征
使用全局长期依赖指导局部语义特征,根据全局长期依赖的每个位置计算局部语义特征的局部注意力上下文,公式如下:
其中,i=1,2,...,m,是第i个子空间的局部注意力上下文,Bi∈RT×T是局部注意力权重,接着拼接每一个子空间的局部注意力上下文,得到加权局部特征
S4、使用上述的加权全局特征和加权局部特征,随时间步加权池化,产生最终的全局表示向量和局部表示向量;其中,所述的步骤S4中随时间步加权池化的过程如下:
将步骤S3中得到的加权全局特征和加权局部特征作为输入,加权全局特征的随时间步加权过程如下:
其中,W(1)∈Rmk×mk,w(2)∈Rmk是权重矩阵,B(1)∈RT×mk,b(2)∈RT是偏置,α∈RT,是加权全局特征的第i个向量的得分,zH∈Rmk是最终的全局表示向量;
加权局部特征的随时间步加权过程如下:
其中,W(3)∈Rmk×mk,w(4)∈Rmk是权重矩阵,B(3)∈RT×mk,b(4)∈RT是偏置,β∈RT,是加权局部特征的第i个向量的得分,zC∈Rmk是最终的全局表示向量;
S5、拼接上述的全局表示向量和局部表示向量,输入全连接层,再输入softmax层进行分类。
2.根据权利要求1所述的一种基于局部与全局互注意力机制的文本分类方法,其特征在于,所述的步骤S5过程如下:
将步骤S4得到的最终全局表示向量zH和最终局部表示向量zC作为输入,预测每个类别i的概率预测公式如下:
其中,Wfc和Wsm是全连接层和softmax层的权重矩阵,bfc和bsm是偏置项;
以减少交叉熵损失作为训练目标进行训练,其中,交叉熵损失的表达式如下:
其中,y是真实分布,是预测输出分布,是两个分布的交叉熵函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910091937.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:中文词向量处理方法及其系统
- 下一篇:一种外语单词语音例句库自建方法





