[发明专利]一种基于局部与全局互注意力机制的文本分类方法有效

申请号：	201910091937.7	申请日：	2019-01-30
公开（公告）号：	CN109902293B	公开（公告）日：	2020-11-24
发明（设计）人：	马千里;余柳红;陈子鹏;田帅	申请（专利权）人：	华南理工大学
主分类号：	G06F40/30	分类号：	G06F40/30;G06F16/33;G06F16/35;G06N3/04
代理公司：	广州市华学知识产权代理有限公司 44245	代理人：	李斌
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于局部全局注意力机制文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于局部与全局互注意力机制的文本分类方法，其特征在于，所述的文本分类方法包括以下步骤：

S1、获取文本数据集，对数据进行预处理，把文本序列的每个单词映射为词向量；

S2、使用双向长短期记忆网络来捕获文本序列的全局长期依赖，同时，使用多尺度卷积神经网络提取文本序列的局部语义特征；其中，所述的步骤S2中并行提取文本序列的全局长期依赖和局部语义特征，过程如下：

S2.1、使用双向长短期记忆网络提取全局长期依赖，在时间步t，单个方向的隐藏层状态h_t更新如下：

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙tanh(c_t)

其中，h_t-1是时间步t-1的单个方向长短期记忆网络隐藏层状态，k_glo为单向长短期记忆网络的隐藏层状态维度，x_t是时间步t的输入，i_t、f_t、o_t分别是单向长短期记忆网络的输入门、遗忘门和输出门；g_t是细胞临时状态，c_t是细胞状态，σ、tanh是非线性激活函数，⊙是逐元素的乘法，M是由可训练参数组成的仿射变换函数；

将文本序列以正向输入到长短期记忆网络中，并获得前向隐藏层状态

将文本序列以反方向输入长短期记忆网络，更新后向隐藏层状态隐藏层状态的两个方向连接如下：

其中，t＝1,2,...,T，T是输入时间步的长度，是拼接操作，表示时间步t的全局长期依赖；

拼接每个时间步的隐藏层状态向量形成矩阵，其定义如下：

其中，是文本序列的全局长期依赖矩阵,T是输入时间步的长度，k_glo为单向长短期记忆网络的隐藏层状态维度，H的每列表示文本序列对应位置处的全局长期依赖；

S2.2、使用多尺度卷积神经网络提取局部语义特征，令为卷积运算的卷积核，其中，w为卷积核的宽度，d是卷积核的高度，其值等于输入维度，k_loc是卷积核的数量，对于位置i的单词，卷积操作表示为：

其中，b表示偏置项，x_{i-w/2+1:i+w/2}指词向量表示x_i-w/2+1,...,x_i,...,x_i+w/2的拼接，*是卷积运算，f是非线性变换函数，是文本序列位置i处的k_loc维局部w元特征向量，卷积核应用于文本序列的每个位置，使用零填充以生成与输入相同长度的特征映射：

其中，是文本序列每个位置的局部语义特征矩阵，是使用相同大小的窗口进行卷积得到的局部语义特征矩阵；接下来使用多尺度卷积神经网络，使用不同大小的窗口进行卷积操作，假设r是窗口w的数量，得到r个卷积操作的结果，拼接起来得到局部语义特征矩阵

S3、构建一种局部与全局互注意力机制，使用步骤S2中提取的全局长期依赖和每个位置的局部语义特征作为输入，用局部语义特征关注全局长期依赖产生局部指导的全局注意力权重，进行加权得到加权全局特征，用全局长期依赖关注局部语义特征产生全局指导的局部注意力权重，进行加权得到加权局部特征；其中，所述的步骤S3中构建局部与全局互注意力机制的过程如下：

S3.1、采用局部与全局互注意力机制，将步骤S2中提取的全局长期依赖H和局部语义特征C作为输入，线性映射到较低维度k中，映射m次，m是局部与全局互注意力机制的子空间数目，将H和C映射到不同的子空间i：

其中，是投影参数矩阵，i＝1,2,...,m；

S3.2、使用局部语义特征指导全局长期依赖，根据局部语义特征的每个位置计算全局长期依赖的全局注意力上下文，公式如下：

其中，i＝1,2,...,m，是第i个子空间的全局注意力上下文，A_i∈R^T×T是全局注意力权重，接着拼接每一个子空间的全局注意力上下文，得到加权全局特征

使用全局长期依赖指导局部语义特征，根据全局长期依赖的每个位置计算局部语义特征的局部注意力上下文，公式如下：

其中，i＝1,2,...,m，是第i个子空间的局部注意力上下文，B_i∈R^T×T是局部注意力权重，接着拼接每一个子空间的局部注意力上下文，得到加权局部特征

S4、使用上述的加权全局特征和加权局部特征，随时间步加权池化，产生最终的全局表示向量和局部表示向量；其中，所述的步骤S4中随时间步加权池化的过程如下：

将步骤S3中得到的加权全局特征和加权局部特征作为输入，加权全局特征的随时间步加权过程如下：

其中，W⁽¹⁾∈R^mk×mk,w⁽²⁾∈R^mk是权重矩阵，B⁽¹⁾∈R^T×mk,b⁽²⁾∈R^T是偏置，α∈R^T，是加权全局特征的第i个向量的得分，z^H∈R^mk是最终的全局表示向量；

加权局部特征的随时间步加权过程如下：

其中，W⁽³⁾∈R^mk×mk,w⁽⁴⁾∈R^mk是权重矩阵，B⁽³⁾∈R^T×mk,b⁽⁴⁾∈R^T是偏置，β∈R^T，是加权局部特征的第i个向量的得分，z^C∈R^mk是最终的全局表示向量；

S5、拼接上述的全局表示向量和局部表示向量，输入全连接层，再输入softmax层进行分类。