[发明专利]一种基于全文检索的精确查找方法在审
申请号: | 201710728477.5 | 申请日: | 2017-08-23 |
公开(公告)号: | CN107562831A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 汪洋;王玉斌;蔡宏旭;马文 | 申请(专利权)人: | 中国软件与技术服务股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙)11200 | 代理人: | 司立彬 |
地址: | 100081 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 全文 检索 精确 查找 方法 | ||
技术领域
本发明属于信息检索领域,涉及一种基于全文检索的精确查找方法。
背景技术
随着电子信息化的普及以及移动互联网的飞速发展,政府、高校、企业、网站等都积累了大量的数据,尤其政府、企业的部门之间可能会有多套电子办公系统;各个系统间都是独立的,用户有时需要在多个系统间进行切换来查找信息;这时不仅仅需要一个能够将这些信息连接起来的桥梁,并且能够让用户高效、准确的获取自己想要的信息。全文检索系统正是针对这些问题提供完善的解决方案。
全文检索只是针对输入的关键词进行检索查询,虽然相比关系数据库中的检索在数据规模和准确性上都有了很大提升。但是依然存在如下问题:
1)为了保证查全率而牺牲准确率,结果中包含了大量非用户需要的信息,例如:搜索苹果,如不加任何限定,会搜索出手机、电脑、水果相关等等;这样就是使得用户还需要在结果集中翻找自己想要的结果。
2)如果搜索的关键词没在索引中,则无法搜到结果,用户只能不停变换关键词进行检索。
3)全文检索用到的相似性匹配多数用到的是tf-idf或bm25等,这些比较常用的相似性算法在精确度上有时有些欠缺。
4)检索长句子时,只能按句子中包含的词进行检索,有时候返回的结果不一定是要表达的意思,例如:问句为“我们都不在老家,离婚手续怎么办?离婚手续可以在异地办理吗?”前五个结果中,有两条如下:
●律师你好,家庭暴力!他不给离婚手续怎么办?
●如果前妻坚持不办理离婚手续,我可以向法院要求按原协议判离吗?
可见这两条结果与原问句的主题并不一致。
发明内容
根据上述的问题,本发明的目的在于提出一种基于全文检索的精确查找方法,本发明在全文检索的基础上结合了语义处理、再次相似性打分等处理。本发明减少用户反复更换检索词,提升信息查询的精度,节约用户的时间成本。该方法的主要思路为在语义上对检索关键词进行扩展,在得到的结果集中再与原句子进行二次相似度计算。
为了达到上述目的,采取如下方案:
一种基于全文检索的精确查找方法,其步骤包括:
1)从输入的查询语句中提取关键词,并对关键词进行扩展,得到关键词的扩展词;
2)根据该查询语句中的非关键词,关键词及其扩展词生成一布尔查询语句;
3)根据该布尔查询语句在全文检索库中进行检索,并选取与该布尔查询语句相关性最高的前n条检索结果;
4)将选取的每条检索结果分别与输入的所述查询语句进行语义相似度计算,并根据语义相似度计算得分对该n条检索结果重新排序。
进一步的,所述扩展词包括关键词的同义词、近义词、上位词和下位词。
进一步的,所述步骤4)中,进行语义相似度计算的方法为:
31)设T1为输入的查询语句,T2为该n条检索结果之一;根据T1的分词结果{w1,w2,w3,...,wl}生成T1的向量为:T1={w1,w2,w3,...,wl},根据T2的分词结果{w1,w2,w3,...,wm}生成T2的向量为:T2={w1,w2,w3,...,wm};取T1、T2向量的并集为T={w1,w2,w3,...,wn},n≤l+m;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国软件与技术服务股份有限公司,未经中国软件与技术服务股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710728477.5/2.html,转载请声明来源钻瓜专利网。