[发明专利]一种基于分层检索的飞行特情处置快速检索方法无效
申请号: | 201210521111.8 | 申请日: | 2012-12-04 |
公开(公告)号: | CN102968500A | 公开(公告)日: | 2013-03-13 |
发明(设计)人: | 符永鹏;张增民;毕爱军;吕鹏涛;岳媛媛;成耀飞;张娟;贠正平;陈浩;高文权;袁志鹏 | 申请(专利权)人: | 中国飞行试验研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 陈星 |
地址: | 710089 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于分层检索的飞行特情处置快速检索方法,将检索内容进行中英文分层,第一层为中文,使用中文直接对目标数据库对象进行优先过滤,以缩小检索范围;第二层为除中文以外的其他字符,使用中文拼音首字母将输入文本信息中的中文字符进行替换,并在第一层的检索结果中进行相似度分析比对,二次分析比对采用计算相似度的方式进行,相似度包括词形相似度和词序相似度两部分,以词形相似度起主要作用,词序相似度起次要作用,对于第二次分析后的检索结果进行按照相似度进行排序。相似度方法实现简单,有利于实现快速检索。 | ||
搜索关键词: | 一种 基于 分层 检索 飞行 处置 快速 方法 | ||
【主权项】:
1.一种基于分层检索的飞行特情处置快速检索方法,其特征在于:包括以下步骤: 步骤1:提取出输入的查询文本A中的中文字符串和英文字符串,提取出的中文字符串组成中文字词集合A1,提取出的英文字符串组成英文字词集合A2; 步骤2:使用中文字词集合A1中的元素对特情处置方法数据库进行检索,得到检索结果集合B=(B1,B2,...,Bn),其中B的每个元素中都出现中文字词集合A1的至少一个元素; 步骤3:将步骤2中检索结果集合B中的每个元素中的中文字符替换成中文字符对应的拼音首字母,得到新的检索结果集合C; 步骤4:计算步骤3中新的检索结果集合C的每个元素与步骤1中的英文字词集合A2的相似度,其中新的检索结果集合C中的元素C1与英文字词集合A2的相似度的方法包括以下步骤: 步骤4.1:分别计算元素C1与英文字词集合A2中每个元素的词形相似度,然后求和得到元素C1与英文字词集合A2的词形相似度,其中元素C1与英文字词集合A2中元素a2的词形相似度WordSim(C1,a2)为:
其中,len(C1)和len(a2)表示元素C1和元素a2中字母的个数,SameWC(C1,a2)表示元素a2在元素C1中出现的个数; 步骤4.2:分别计算元素C1与英文字词集合A2中每个元素的词序相似度,然后求和得到元素C1与英文字词集合A2的词序相似度,其中元素C1与英文字词集合A2中元素a2的词序相似度OrdSim(C1,a2)为: 若|OnceWS(C1,a2)|>1,则
若|OnceWS(C1,a2)|=1,则OrdSim(C1,a2)=1; 若|OnceWS(C1,a2)|=0,则OrdSim(C1,a2)=0; 其中,OnceWS(C1,a2)表示在元素C1和元素a2中都分别出现且都分别都只出现一次的英文字符串集合,|OnceWS(C1,a2)|表示集合OnceWS(C1,a2)的模;Pfirst(C1,a2)表 示OnceWS(C1,a2)中的各个元素在元素C1中的位置序号构成的向量, Psecond(C1,a2)表示Pfirst(C1,a2)的分量按对应OnceWS(C1,a2)中各个元素在元素a2中的位置重新排列后得到的向量,RevOrd(C1,a2)表示Psecond(C1,a2)各相邻分量的逆序数; 步骤4.3:取步骤4.1得到的元素C1与英文字词集合A2的词形相似度的λ1倍,再与步骤4.2得到的元素C1与英文字词集合A2的词序相似度的λ2倍求和,得到元素C1与英文字词集合A2的相似度;其中λ1+λ2=1,且λ1>λ2; 步骤5:新的检索结果集合C中与英文字词集合A2的相似度最大的元素作为最终检索结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国飞行试验研究院,未经中国飞行试验研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210521111.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种水分散性紫外光交联型含氟聚合物及其应用
- 下一篇:人脸视频传输方法