[发明专利]实现航空领域知识问答的方法和系统在审
申请号: | 202210376477.4 | 申请日: | 2022-04-11 |
公开(公告)号: | CN114757184A | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 董洪飞;高魁;贺薇;陶剑;刘俊;王孝天;武铎;高龙;何柳;安然 | 申请(专利权)人: | 中国航空综合技术研究所 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06F40/30;G06F16/36;G06F40/242;G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京孚睿湾知识产权代理事务所(普通合伙) 11474 | 代理人: | 韩燕 |
地址: | 100028 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实现 航空 领域 知识 问答 方法 系统 | ||
1.一种实现航空领域知识问答的方法,其特征在于:其包括以下步骤:
S1:根据航空知识领域的文本段落得到问题文本,再对文本段落和问题文本中的词语进行分类并设置优先级和权重,
S2:针对不同优先级的词语,通过改进的词典权重调整的BM25算法,得到和问题文本最相似的k篇文本段落;
S3:将问题文本Q和k篇文本段落中的每一个文本分别使用面向航空领域微调后的Bert模型得到对应文本的字符特征向量;
S4:利用Word2Vec模型得到字符其它特征向量,将字符特征向量和字符其它特征向量进行融合,最后获得字符最终特征向量,实现了多特征子空间的文本映射表示;字符其它特征向量包括郑码、五笔、拼音和笔画特征向量;
S5:将问题文本Q和文本段落的字符最终特征向量输入到改进的BiDAF+Bi-LSTM模型,并使用面向航空领域的数据进行对抗训练,得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量,具体为:
将问题文本Q和k篇文本段落的字符最终特征向量输入到BiDAF模型使得两者特征相互交互,再输入到Bi-LSTM模型,对信息进行编码增强序列依赖,最终得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量,使用面向航空领域的数据进行对抗训练增强带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量的鲁棒性;
S6:将带有多种特征的文本段落字符特征向量中的每一个字符对应的向量分别通过判断答案开始的全连接层+softmax和判断答案结束的全连接层+softmax抽取出对应文本的答案句;
S7:判断k值是否等于1,若k=1,则问题的答案来自单文本,直接得到该单文本答案句;若k≠1,则问题的答案来自多文本,需要对多段候选答案文本进行融合语义基于依据句法分析树的规则组合,进行语法和语义判断;
S8:判断为多文本问答,则使用LTP工具根据答案句的依存句法结构和语义角色关系,利用句法规则生成多文本答案句。
2.根据权利要求1所述的实现航空领域知识问答的方法,其特征在于:所述步骤S1中对文本段落和问题文本中的词语进行分类并设置优先级和权重,具体为:
对问题文本基于领域的依存句法树,分析提取问题中不依存于其他词语且被除本身之外所有词语依存的核心词,核心词一起组成核心词典;
对全部航空知识领域文本段落基于领域的依存句法树及领域规则提取出领域词,领域词一起构成了领域词典;
使用LTP分词工具,在文本段落中得到去除核心词、领域词和停用词之外的词,称为非相关词,非相关词一起组成了其他词汇词典;
对上述得到的三种不同类型的词赋予不同优先级和权重,对核心词设为第一优先级,设置的权重值高于其他两类词的权重,对领域词设为第二优先级,设置的权重高于非相关词的权重,对非相关词设为第三优先级,设置的权重最低。
3.根据权利要求2所述的实现航空领域知识问答的方法,其特征在于:所述步骤S2中改进的词典权重调整的BM25算法,具体为:
通过问题文本Q分词后得到的词和文本段落D使用词典权重调整的BM25算法进行匹配,得到两者之间的相似度得分加权和,也就是问题文本Q和文本段落D的相似度得分,其中词典权重调整的BM25算法具体如公式(1)-(4):
其中,P1、P2分别为问题核心词和领域词典词的权重;k3为词qi的权重,词的优先级别越高,权重值越大,对相似度得分加权和的影响越大;score(D,Q)为问题文本Q和文本段落D的相似度得分;n为问题文本Q分词后得到的词的数量;i为正整数;IDF(qi)为qi的逆向文档频率;R(qi,D)为词qi与文本段落D的相关性得分;N为全部文本段落数.;dfi为包含词qi的文本段落数;f(qi,D)为qi在文本段落D中出现的频率;k1为第一调节因子;|D|为文本段落D的长度,avgdl为所有文本段落的平均长度;b为第二调节因子。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航空综合技术研究所,未经中国航空综合技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210376477.4/1.html,转载请声明来源钻瓜专利网。