[发明专利]一种文本案例匹配方法有效
申请号: | 201310385122.2 | 申请日: | 2013-08-29 |
公开(公告)号: | CN103473283A | 公开(公告)日: | 2013-12-25 |
发明(设计)人: | 陶坤旺;张福浩;仇阿根;汤磊 | 申请(专利权)人: | 中国测绘科学研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 高燕燕;杨志兵 |
地址: | 100830 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种文本案例匹配方法,该方法包括:构建案例库、构建标识词组、构建检索词组、求出语义距离、根据语义距离求出语义相似度、为检索词组分配权重、确定综合相似度、确定综合相似度阈值、判断是否全部匹配完成最后输出匹配结果,本发明能够根据相关概念以及相关背景知识进行推理,挖掘出文本中的隐含信息,为相关检索式进行赋权,从而可以实现基于概念的智能检索。在实际系统应用中具有较好的查询效果。 | ||
搜索关键词: | 一种 文本 案例 匹配 方法 | ||
【主权项】:
一种文本案例匹配方法,其特征在于,包括:步骤一、从新闻或档案中搜集案例,将所述案例集合起来构建案例库;步骤二、对案例库中的所有案例进行关键词提取,利用关键词之间存在着的上下位关系构建多个关键词树,每一个关键词树上的关键词均为同一类的关键词,同义词之间只显示一个词,其余的均隐藏在该词的后面;同时将每一个案例提取出的关键词构建多个形如Q={q1,q2,…qn}的标识词组,每一个标识词组中的关键词均为同一类,n表示标识词的个数;步骤三、利用关键词树从用户输入的检索案例中提取关键词,构建多个形如P={p1,p2,…pm}的检索词组,每一个检索词组内的关键词均属于同一类;步骤四、将检索案例与案例库中的案例进行匹配,利用关键词树对内部关键词属于同一类的标识词组和检索词组做最近距离匹配,求出检索词组与标识词组的语义距离dP→Q;步骤五、利用语义距离dP→Q求出包含着同一类关键词的检索词组与标识词组之间的语义相似度simP→Q;步骤六、为包含一个类别的检索词组分配权重λi,其中,i=1……n’,λ1+λ2+…+λn′=1;步骤七、根据公式求出整个案例的综合相似度SIM,设simi为每个类别检索词组的相似度,λi表示该因子在匹配过程中所占的权重,权重默认值为1/n’,其中n’为检索词组的分类数,那么 SIM = Σ i = 1 n sim 1 × λ i = sim 1 × λ 1 + sim 2 × λ 2 + · · · sim n ′ × λ n ′ ; 步骤八、根据实际需要设定综合相似度阈值;步骤九、判断检索案例与案例库中的所有案例是否已经全部匹配,若否, 回到步骤四,若是,进入步骤十;步骤十、将大于综合相似度阈值的案例按照综合相似度从大到小输出匹配结果,完成案例匹配过程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国测绘科学研究院,未经中国测绘科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310385122.2/,转载请声明来源钻瓜专利网。
- 上一篇:多用水冷式笔记本电脑散热座
- 下一篇:硬盘固定装置及应用其的电子装置