[发明专利]一种基于切词的多层次检索方法在审
申请号: | 201711212961.9 | 申请日: | 2017-11-28 |
公开(公告)号: | CN107798144A | 公开(公告)日: | 2018-03-13 |
发明(设计)人: | 胡伟东 | 申请(专利权)人: | 北京小度互娱科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,王艳春 |
地址: | 100193 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层次 检索 方法 | ||
技术领域
本发明涉及数据检索领域,具体地,涉及基于切词的多层次数据检索方法。
背景技术
随着互联网行业的快速发展,互联网上的信息数据规模越来越大,越来越多的用户从互联网上检索自己需要的信息。为了使用户能够从海量的信息数据中检索到有价值的信息,通常需要对自然语言进行处理,进而将与检索词相匹配的结果按一定的顺序排序。现有的搜索引擎都有各自的文本检索方案,以为用户提供其所检索的信息。
现在常用的文本检索方法,在对文本进行切词后,直接根据切词后的分词列表对索引进行召回并进行相关性计算打分,存在着以下的不足之处:1)没有考虑切词之后的分词顺序,导致结果中出现分词乱序的数据;2)一些专有名词没有被切词识别,导致含有专有名词的数据没有通过排序排到前面。
发明内容
为了解决现有技术中的至少一些问题,本发明提出了一种基于切词的多层次检索方法。
根据本发明的一方面,提出了一种基于切词的多层次检索方法,包括:获得检索文本的检索基础分词;通过将所述检索基础分词进行组合形成所述检索文本的检索组合分词;以及使用所述检索文本的检索基础分词和检索组合分词,搜索语料库中的文本数据以获得所述检索文本的检索结果。
根据本发明的一方面,获得检索文本的检索基础分词的步骤包括:对所述检索文本进行切词处理,生成所述检索文本的检索基础分词。
根据本发明的一方面,所述检索组合分词包括第一检索组合分词和第二检索组合分词,通过将所述检索基础分词进行组合形成所述检索文本的检索组合分词的步骤包括:对所述检索基础分词进行合并,生成所述第一检索组合分词;以及对所述第一检索组合分词进行合并,生成所述第二检索组合分词。
根据本发明的一方面,该方法还包括:在进行检索之前,对所述语料库中的文本数据进行切词处理,获得所述文本数据的文本基础分词;以及通过将所述文本基础分词进行组合形成所述文本数据的文本组合分词。
根据本发明的一方面,所述文本组合分词包括第一文本组合分词和第二文本组合分词,通过将所述文本基础分词进行组合形成所述文本数据的文本组合分词的步骤包括:将所述文本基础分词之间距离是1或2的文本基础分词进行合并,生成所述第一文本组合分词;以及将所述第一文本组合分词之间距离是1或2的第一文本组合分词进行合并,生成所述第二文本组合分词。
根据本发明的一方面,使用所述检索文本的检索基础分词和检索组合分词,搜索语料库中的文本数据以获得所述检索文本的检索结果的步骤包括:将所述检索文本的检索基础分词和检索组合分词与所述文本数据的文本基础分词和文本组合分词进行比对,以获得所述检索文本的检索结果。
根据本发明的一方面,该方法还包括:为所述文本数据的文本基础分词和文本组合分词创建倒排索引,将所述检索文本的检索基础分词和检索组合分词与所述文本数据的文本基础分词和文本组合分词进行比对,以获得所述检索文本的检索结果的步骤包括:将所述检索基础分词和所述检索组合分词与所述文本基础分词和所述文本组合分词进行比对,获得与所述检索基础分词和所述检索组合分词相对应的所述文本基础分词和所述文本组合分词的倒排索引;以及基于所获得的倒排索引,计算所述检索文本与所述文本数据的相关性,选择相关性最高的文本数据作为所述检索文本的检索结果。
根据本发明的一方面,基于所获得的倒排索引,计算所述检索文本与所述文本数据的相关性的步骤包括:基于所获得的倒排索引,确定所述语料库中包含有所述检索文本的检索基础分词的文本数据的第一数量,和所述语料库中包含有所述检索文本的检索组合分词的文本数据的第二数量;以及基于所述第一数量和所述第二数量来计算所述检索文本与所述文本数据的相关性。
根据本发明的一方面,提供了一种执行基于切词的多层次检索方法的服务器,包括:存储器,存储有程序指令;处理器,执行程序指令以,获得检索文本的检索基础分词;通过将所述检索基础分词进行组合形成所述检索文本的检索组合分词;以及使用所述检索文本的检索基础分词和检索组合分词,搜索语料库中的文本数据以获得所述检索文本的检索结果。
根据本发明的一方面,获得检索文本的检索基础分词的步骤包括:对所述检索文本进行切词处理,生成所述检索文本的检索基础分词。
根据本发明的一方面,所述检索组合分词包括第一检索组合分词和第二检索组合分词,通过将所述检索基础分词进行组合形成所述检索文本的检索组合分词的步骤包括:对所述检索基础分词进行合并,生成所述第一检索组合分词;以及对所述第一检索组合分词进行合并,生成所述第二检索组合分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小度互娱科技有限公司,未经北京小度互娱科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711212961.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息搜索方法、装置、终端及可读存储介质
- 下一篇:图片整理方法