[发明专利]基于多头自注意力模型获取首次出现的航空关键词方法有效
申请号: | 202210195696.2 | 申请日: | 2022-03-01 |
公开(公告)号: | CN114462406B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 高魁;董洪飞;刘俊;陶剑;高龙;何柳;安然;贺薇;董世鹏;武铎 | 申请(专利权)人: | 中国航空综合技术研究所 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06N3/04 |
代理公司: | 北京孚睿湾知识产权代理事务所(普通合伙) 11474 | 代理人: | 韩燕 |
地址: | 100028 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多头 注意力 模型 获取 首次 出现 航空 关键词 方法 | ||
本发明涉及一种基于多头自注意力模型获取首次出现的航空关键词方法,其包括以下步骤,步骤一:预处理输入文本,获取标准文本;步骤二:使用Bert编码技术获得文本特征向量;步骤三:构建相对位置矩阵,并构建正相对位置编码矩阵和负相对位置编码矩阵;步骤四:将特征向量输入到多头自注意力模型中,获取序列特征矩阵;步骤五:根据序列特征矩阵、正相对位置编码矩阵和负相对位置编码矩阵得到分类矩阵;步骤六:定位首次出现航空关键词区间。本发明对文本序列采用文本特征和位置特征相结合的方式获取序列特征矩阵,然后基于多头自注意力模型机制定位首次出现航空关键词区间,解决了首次出现的航空关键词识别难题,并且能够用于嵌套航空关键词的识别。
技术领域
本申请涉及人工智能领域,具体地涉及一种基于多头自注意力模型获取首次出现的航空关键词方法。
背景技术
航空领域有大量的专业词汇,而且很多专业词汇并未出现在现有的自然语言处理工具的词表中,通过常用的工具包难以将航空专业词汇进行抽取。而通常的新词发现算法是基于词频和凝固度的,这类算法根据语料用于抽取所有类型的新词,无法具体到航空领域。
基于词频和凝固度的新词发现方法:当片段的凝固度大于一定程度时,片段可能成词,然后计算边界熵来确定是否是词。简易的方法是如果片段的凝固度低于一定程度时,这个片段就不可能成词,然后在原来的语料中把它断开。
基于序列标注的新词发现算法:使用如BIO(B:实体开始位置,I:实体其他位置,O:非实体部分)对新词数据进行标注,使用如卷积神经网络,循环神经网络或者预训练模型对输入序列进行编码,然后使用条件随机场解码,得到序列中每个字所属的类型,然后将符合BI*的部分抽出作为实体。
除此之外,为了能够识别嵌套实体,提出了基于阅读理解的方法以及将实体抽取转为区间跨度分类的算法。基于阅读理解的方法通过查询依次得到实体的起点和终点坐标,而基于区间跨度分类的算法,将输入序列转为n*n矩阵的二分类问题,判断每个区间是否构成实体。
发明内容
为了克服现有技术的不足,本发明通过多头自注意力模型算法中的全连接层、gumble-sigmoid层和softmax函数来定位首次出现航空关键词区间,最终获取航空关键词。
为实现上述目的,本发明所采用的解决方案为:
一种基于多头自注意力模型获取首次出现的航空关键词方法,其包括以下步骤:
步骤1:预处理输入文本,获取标准文本段落;
剔除输入文本中的特殊字符,并截取长度为Q个字符的标准文本;若截取后的标准文本长度大于256个字符,则将文本按照标点符号切分为n个长度均在256个字符以内的标准文本段落,标准文本段落记为X,标准文本段落X包含x1、x2、x3到xm共m个字符;Q、m和n都为正整数;
步骤2:对标准文本段落X通过微调后的Bert进行编码,得到文本特征向量D;
使用微调后的Bert编码技术对标准文本X进行编码处理,得到文本特征向量D;
步骤3:构建相对位置矩阵,并根据相对位置矩阵构建相对位置编码矩阵和负相对位置编码矩阵;
相对位置矩阵L为m×m矩阵,相对位置编码矩阵M和负相对位置编码矩阵N为m×m×b的矩阵。
步骤4:将特征向量输入到多头自注意力模型中,获取序列特征矩阵;
步骤41:获取步骤2得到的文本特征向量D,通过多头自注意力模型的三个不同的全连接层得到Q,K,V三个不同的特征矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空综合技术研究所,未经中国航空综合技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210195696.2/2.html,转载请声明来源钻瓜专利网。