[发明专利]一种基于切词的多层次检索方法在审
申请号: | 201711212961.9 | 申请日: | 2017-11-28 |
公开(公告)号: | CN107798144A | 公开(公告)日: | 2018-03-13 |
发明(设计)人: | 胡伟东 | 申请(专利权)人: | 北京小度互娱科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,王艳春 |
地址: | 100193 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层次 检索 方法 | ||
1.一种基于切词的多层次检索方法,包括:
获得检索文本的检索基础分词;
通过将所述检索基础分词进行组合形成所述检索文本的检索组合分词;以及
使用所述检索文本的检索基础分词和检索组合分词,搜索语料库中的文本数据以获得所述检索文本的检索结果。
2.根据权利要求1所述的方法,其中,获得检索文本的检索基础分词的步骤包括:
对所述检索文本进行切词处理,生成所述检索文本的检索基础分词。
3.根据权利要求2所述的方法,其中,所述检索组合分词包括第一检索组合分词和第二检索组合分词,
通过将所述检索基础分词进行组合形成所述检索文本的检索组合分词的步骤包括:
对所述检索基础分词进行合并,生成所述第一检索组合分词;以及
对所述第一检索组合分词进行合并,生成所述第二检索组合分词。
4.根据权利要求1所述的方法,还包括:
在进行检索之前,对所述语料库中的文本数据进行切词处理,获得所述文本数据的文本基础分词;以及
通过将所述文本基础分词进行组合形成所述文本数据的文本组合分词。
5.根据权利要求4所述的方法,所述文本组合分词包括第一文本组合分词和第二文本组合分词,
通过将所述文本基础分词进行组合形成所述文本数据的文本组合分词的步骤包括:
将所述文本基础分词之间距离是1或2的文本基础分词进行合并,生成所述第一文本组合分词;以及
将所述第一文本组合分词之间距离是1或2的第一文本组合分词进行合并,生成所述第二文本组合分词。
6.根据权利要求1至5中任一项所述的方法,使用所述检索文本的检索基础分词和检索组合分词,搜索语料库中的文本数据以获得所述检索文本的检索结果的步骤包括:
将所述检索文本的检索基础分词和检索组合分词与所述文本数据的文本基础分词和文本组合分词进行比对,以获得所述检索文本的检索结果。
7.根据权利要求6所述的方法,还包括:为所述文本数据的文本基础分词和文本组合分词创建倒排索引,
将所述检索文本的检索基础分词和检索组合分词与所述文本数据的文本基础分词和文本组合分词进行比对,以获得所述检索文本的检索结果的步骤包括:
将所述检索基础分词和所述检索组合分词与所述文本基础分词和所述文本组合分词进行比对,获得与所述检索基础分词和所述检索组合分词相对应的所述文本基础分词和所述文本组合分词的倒排索引;以及
基于所获得的倒排索引,计算所述检索文本与所述文本数据的相关性,选择相关性最高的文本数据作为所述检索文本的检索结果。
8.根据权利要求7所述的方法,其中,基于所获得的倒排索引,计算所述检索文本与所述文本数据的相关性的步骤包括:
基于所获得的倒排索引,确定所述语料库中包含有所述检索文本的检索基础分词的文本数据的第一数量,和所述语料库中包含有所述检索文本的检索组合分词的文本数据的第二数量;以及
基于所述第一数量和所述第二数量来计算所述检索文本与所述文本数据的相关性。
9.一种执行基于切词的多层次检索方法的服务器,包括:
存储器,存储有程序指令;
处理器,执行所述程序指令以,
获得检索文本的检索基础分词;
通过将所述检索基础分词进行组合形成所述检索文本的检索组合分词;以及
使用所述检索文本的检索基础分词和检索组合分词,搜索语料库中的文本数据以获得所述检索文本的检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小度互娱科技有限公司,未经北京小度互娱科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711212961.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息搜索方法、装置、终端及可读存储介质
- 下一篇:图片整理方法