[发明专利]一种分词搜索方法及其装置有效
申请号: | 201710043398.0 | 申请日: | 2017-01-21 |
公开(公告)号: | CN106844633B | 公开(公告)日: | 2019-06-14 |
发明(设计)人: | 张元康 | 申请(专利权)人: | 浙江沛宏网络科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F17/27 |
代理公司: | 北京维正专利代理有限公司 11508 | 代理人: | 林乐飞 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分词 搜索 方法 及其 装置 | ||
本发明公开了一种分词搜索方法,用于提高分词搜索的精准度。方法包括:将原始搜索词进行分词处理得到最大分词组和最小分词组,若在数据库中存在包含最小分词组中所有分词的第一词条时,对第一词条进行分类,找到第一词条在所有类目中数量最多的类目作为目标类目,再在数据库中的目标类目下搜索包含最小分词组中任一分词的词条作为第一目标词条输出;若数据库中存在上述的第一词条,则通过判断原始搜索词中心词的方式对数据库进行搜索,得到第二目标词条输出,从而使用户得到想要信息。本发明还公开了一种用于实现上述方法的装置。
技术领域
本发明涉及搜索引擎技术领域,特别涉及一种分词搜索方法及其装置。
背景技术
对于搜索引擎来说,分词技术的重要程度是显而易见的,它关系搜索引擎最重要的部分,搜索精确的问题。Solr自带的分词器不能满足对中文的准确分词,因此需要引入外部中文分词技术。
中文分词到底对搜索引擎有多大影响。对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。
随着互联网的发展,现在正在逐步向人们学习,工作,休闲等各个空间延伸,因此互联网上信息迎来了爆炸式的增长,信息多元化使人们分辨搜索起来困难无比,如何快速的让人们在多种多样的信息中找到自己想要的内容成了一个难题。
在solr的分词配置后成功后,在solr后台管理界面进行模糊查询的时候会存在分词匹配个数的问题。打个简单的比方:搜索“大学生奶粉”。 往往这个时候就有一大批数据出来,只要包含了分词后的词的数据都会搜索出来,给客户的体验不怎么好,本来客户是想只展示大学生奶粉的,结果XX大学、XX大学生,还有其他名称的奶粉都给搜索出来。显然这不是我们想要的结果,我们需要的更精确的搜索结果。
发明内容
本发明的目的一是提供一种分词搜索方法,用于解决现有技术中分词搜索准确度不高的问题,实现了提高分词搜索准确度的技术效果。
本发明的上述技术目的一是通过以下技术方案得以实现的:
一种分词搜索方法,包括以下步骤:
获取原始搜索词;
对所述搜索词进行分词处理,得到最小分词组和最大分词组;
搜索包含所述最小分词组中所有分词的第一词条;
判断是否存在所述第一词条;
若存在所述第一词条,对所述第一词条进行分类,统计所述第一词条在各类目中出现的次数,查找所述第一词条在各类目中出现次数最多的类目作为目标类目;
获取所述目标类目,在所述目标类目下搜索包含最小分词中任一分词的第一目标词条,并输出所述第一目标词条;
若不存在第一词条,搜索包含所述最大分词组中任一分词的第二词条;
获取所述第二词条,获取所述第二词条,对所述第二词条进行分词处理得到第一分词组,并统计所述第一分词组中的分词在第二词条中出现的次数,查找所述第一分词组中与所述最小分词组中相同的分词组成分词交集,查找所述分词交集中在第二词条中出现次数最多的分词作为中心词;
判断所述中心词是否位于所述原始搜索词末尾;
若中心词位于所述原始搜索词末尾,查找第二词条中包含中心词的词条作为第二目标词条,并输出所述第二目标词条;
若中心词不是所述原始搜索词里最后一个词,输出“未搜索到”。
进一步的,所述分词处理通过solr分词系统完成。
进一步的,所述最大分词组中的分词包括由原始搜索词通过最小切分法得到的分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江沛宏网络科技有限公司,未经浙江沛宏网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710043398.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种石油化工实验废弃物存储罐
- 下一篇:一种具有真空抽气结构的诊断试剂存储罐