[发明专利]基于多头自注意力模型获取首次出现的航空关键词方法有效
申请号: | 202210195696.2 | 申请日: | 2022-03-01 |
公开(公告)号: | CN114462406B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 高魁;董洪飞;刘俊;陶剑;高龙;何柳;安然;贺薇;董世鹏;武铎 | 申请(专利权)人: | 中国航空综合技术研究所 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06N3/04 |
代理公司: | 北京孚睿湾知识产权代理事务所(普通合伙) 11474 | 代理人: | 韩燕 |
地址: | 100028 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多头 注意力 模型 获取 首次 出现 航空 关键词 方法 | ||
1.一种基于多头自注意力模型获取首次出现的航空关键词方法,其特征在于,其包括以下步骤:
步骤1:预处理输入文本,获取标准文本段落;
剔除输入文本中的特殊字符,并截取长度为Q个字符的标准文本;若截取后的标准文本长度大于256个字符,则将文本按照标点符号切分为n个长度均在256个字符以内的标准文本段落,标准文本段落记为X,标准文本段落X包含x1、x2、x3到xm共m个字符;Q、m和n都为正整数;
步骤2:使用Bert编码技术获得文本特征向量;
使用微调后的Bert编码技术对标准文本X进行编码处理,得到文本特征向量D;
步骤3:构建相对位置矩阵,并根据相对位置矩阵构建正相对位置编码矩阵和负相对位置编码矩阵;
相对位置矩阵L为m×m矩阵,正相对位置编码矩阵M和负相对位置编码矩阵N为m×m×b的矩阵;
步骤4:将特征向量输入到多头自注意力模型中,获取序列特征矩阵;
步骤41:获取步骤2得到的文本特征向量D,通过多头自注意力模型的三个不同的全连接层得到Q,K,V三个不同的特征矩阵;
式中:Q表示第一特征矩阵;K表示第二特征矩阵;V表示第三特征矩阵;FCL1、FCL2和FCL3分别表示第一、第二和第三全连接层处理;D表示文本特征向量;
步骤42:判断矩阵相似度,相似度矩阵S的获取方法如下所示;
S=Q·KT
式中:S表示相似度矩阵;
步骤43:将相似度矩阵S与正相对位置编码矩阵M相加后输入到多头自注意力模型的gumble-sigmoid层进行0、1二值化,然后二值化矩阵与相似度矩阵做乘法,将无关特征值由0置为负无穷,获得二值化处理后的相似度矩阵Sc;具体过程如下所示;
Sc=S·gs(S+M)
式中:M表示正相对位置编码矩阵;Sc表示二值化处理后的相似度矩阵;gs表示gumble-sigmoid层;
步骤44:使用多头自注意力模型的softmax函数,计算整个序列的加权特征分布,并与第三特征矩阵V相乘,得到用于区间分类的序列特征矩阵F,F为m×b矩阵;
F=softmax(Sc)·V
式中:F表示序列特征矩阵;
步骤5:根据序列特征矩阵F、正相对位置编码矩阵M和负相对位置编码矩阵N得到分类矩阵;
分类矩阵E为m×m矩阵;
步骤6:定位首次出现航空关键词区间;
使用多头自注意力模型的Sigmoid函数,将步骤5中的分类矩阵E中的每个值归一化到0-1,其中大于0.5的区间序列标记为首次出现航空关键词;
eij=sigmoid(Eij)
式中:i和j为分类矩阵的行列编号,i、j均属于m;eij表示第i行j列的航空新词系数;Eij表示第i行j列的分类矩阵元素;sigmoid表示多头自注意力模型函数;
获取eij大于0.5的区间序列,确定并输出首次出现航空关键词;
所述步骤3具体为:
步骤31:相对位置矩阵L是字符与字符之间相对位置组成的矩阵,是一个m行m列的方阵;针对不同距离的字符,采取不均匀编码的原则;负相对位置矩阵就是相对位置矩阵下三角为负值;
步骤32:将相对位置矩阵每个位置上的数值输入到微调后的Bert进行编码,将每个位置上的数值映射到b个维度,组成一个m×m×b的正相对位置编码矩阵M;同理,将负相对位置矩阵每个位置上的数值映射到b个维度,组成一个m×m×b的负相对位置编码矩阵N;
所述步骤3中的不均匀编码的原则具体为:设置距离dl,当两个字符的距离小于dl时相对位置值按实际距离设置;当两个字符距离大于dl时,采用模糊编码,相对位置值采用等比设计,当两个字符的距离未在相对位置值中时,采用就近原则,使用其值附近的相对位置值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空综合技术研究所,未经中国航空综合技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210195696.2/1.html,转载请声明来源钻瓜专利网。