[发明专利]基于主题注意力的深度学习文本分类模型训练方法在审

申请号：	202210312063.5	申请日：	2022-03-28
公开（公告）号：	CN114925197A	公开（公告）日：	2022-08-19
发明（设计）人：	张祖平;彭杰;龙哲	申请（专利权）人：	中南大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06N20/00
代理公司：	长沙轩荣专利代理有限公司 43235	代理人：	孙薇
地址：	410000 湖南***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于主题注意力深度学习文本分类模型训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于主题注意力的深度学习文本分类模型训练方法，其特征在于，包括：

步骤1，获取原始文本，并根据所述原始文本构建文本数据集；

步骤2，根据所述文件数据集，得到文本的数字化表示、文本的掩盖序列、文本的数字标签；

步骤3，根据所述数字化表示，得到样本，并将样本分为训练集和验证集；

步骤4，初始化前向网络中变量，包括词嵌入表、主题向量以及其它全连接网络层权重；

步骤5，根据所述数字化表示，得到表征文本的一组词向量；

步骤6，根据所述词向量组和主题向量组，得到原始注意力矩阵；

步骤7，根据所述掩盖序列，掩盖原始注意力矩阵中的无效部分，得到目标注意力矩阵；

步骤8，根据所述目标注意力矩阵，得到概率矩阵；

步骤9，根据所述概率矩阵和值向量，计算注意力头输出；

步骤10，将不同头部的注意力头输出拼接并将拼接结果进行线性转化，得到注意力输出；

步骤11，根据所述注意力输出，计算主题输出；

步骤12，根据所述主题输出和主题向量，计算主题概率向量；

步骤13，将所述数字标签转化为one-hot编码形式后根据所述主题概率向量，计算交叉熵损失；

步骤14，根据所述交叉熵损失，计算前向网络变量的梯度；

步骤15，根据所述梯度，更新网络变量；

步骤16，依次从所述训练集中取出一定样本送入前向网络中，不断计算交叉熵损失以及梯度，更新网络变量；

步骤17，当迭代达到预设次数或模型损失趋于稳定，迭代停止。

2.根据权利要求1所述的方法，其特征在于,所述前向网络包括词嵌入、主题嵌入，多头注意力模块、线性映射层、前馈网络模块、残差结构、标准化模块。

3.根据权利要求1所述的方法，其特征在于,所述主题向量和查询向量之间、所述词向量和键向量之间、所述词向量和所述值向量之间，以及，所述注意力头输出和所述主题输出之间均设置有一个全连接层，主题输出和主题概率向量之间设置有多个全连接层。

4.根据权利要求1所述的方法，其特征在于,所述步骤5具体包括：

将所述数字化表示中的数字序号依次取出，通过序号查询词嵌入表，取出序号对应行数的向量，将取出的向量按序拼接成矩阵，并根据所述矩阵得到所述词向量。

5.根据权利要求1所述的方法，其特征在于,所述原始注意力矩阵Score，计算方法如下：

令Q为查询矩阵，K为键矩阵，V为值矩阵，n为类别数，l为文本最大长度，d_emb为词向量维度，则：

Q＝(q₁,q₂,…,q_n),K＝(k₁,k₂,…,k_l,),V＝(v₁,v₂,…,v_l,)

将Q矩阵和K的转置矩阵做矩阵乘法，并进行缩放，公式如下：

Score_i,j表示文本中第j个字符对第i个主题的贡献。

6.根据权利要求5所述的方法，其特征在于,所述步骤7具体包括：

步骤7.1，将所述查询向量、键向量、值向量投影到低纬度上，计算每个头独立的注意力；

步骤7.2，根据所述掩盖序列和每个头独立的注意力掩盖原始注意力矩阵中的无效部分，得到目标注意力矩阵。

7.根据权利要求1所述的方法，其特征在于,所述概率矩阵的计算公式如下：

Prob_i＝(Prob_i,1,Prob_i,2,……,Prob_i,l)

Prob＝Softmax(Score)＝(Prob₁,Prob₂,……,Prob_n)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中南大学，未经中南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210312063.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载