[发明专利]一种信息搜索方法和装置无效
申请号: | 201210232960.1 | 申请日: | 2012-07-06 |
公开(公告)号: | CN103530298A | 公开(公告)日: | 2014-01-22 |
发明(设计)人: | 谢朴锐 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张玉波;宋志强 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 搜索 方法 装置 | ||
1.一种信息搜索方法,其特征在于,该方法包括:
获取查询词,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组;
根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息,从各个词典对应的搜索结果信息中确定最终的搜索结果。
2.根据权利要求1所述的方法,其特征在于,基于两个以上的词典分别对所述查询词进行分词包括:
通过查询处理函数数据库获得各个词典的分词处理函数,调用各个词典的分词处理函数分别对所述查询词进行分词,其中,在所述处理函数数据库中存储有分词版本号和/或词典名称、与分词处理函数名称和分词处理函数地址之间的对应关系。
3.根据权利要求1所述的方法,其特征在于,从各个词典对应的搜索结果信息中确定最终的搜索结果包括:
将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果;
或者,将新词词典对应的至少部分搜索结果确定为最终的搜索结果;
或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。
4.根据权利要求3所述的方法,其特征在于,确定的最终的搜索结果的总条数为一定值。
5.根据权利要求3所述的方法,其特征在于,该方法还包括:预先建立加速数据库,在该加速数据库中存储所述两个以上的词典中的每个词组对应的搜索结果条数信息;
所述根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息,从各个词典对应的搜索结果信息中确定最终的搜索结果包括:
根据每个词典对应的分词结果包含的词组,从所述加速数据库中获取相应词组的搜索结果条数信息,根据获取的每个词组的搜索结果条数信息,确定每个词典对应的搜索结果条数信息;
判断新词词典对应的搜索结果条数信息是否达到预定阈值,如果是,根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果,将新词词典对应的至少部分搜索结果确定为最终的搜索结果,如果否,根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果、且根据基本词典的分词结果从倒排数据库中获取基本词典对应的搜索结果,将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果,或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。
6.一种信息搜索装置,其特征在于,该装置包括第一获取模块、分词模块、第二获取模块和确定模块;
所述第一获取模块,用于获取查询词;
所述分词模块,用于基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组;
所述第二获取模块,用于根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息;
所述确定模块,用于从各个词典对应的搜索结果信息中确定最终的搜索结果。
7.根据权利要求6所述的装置,其特征在于,
所述分词模块,用于通过查询处理函数数据库获得各个词典的分词处理函数,调用各个词典的分词处理函数分别对所述查询词进行分词,其中,在所述处理函数数据库中存储有分词版本号和/或词典名称、与分词处理函数名称和分词处理函数地址之间的对应关系。
8.根据权利要求6所述的装置,其特征在于,
所述确定模块,用于将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果,或者,将新词词典对应的至少部分搜索结果确定为最终的搜索结果,或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。
9.根据权利要求8所述的装置,其特征在于,确定的最终的搜索结果的总条数为一定值。
10.根据权利要求8所述的装置,其特征在于,该装置还包括加速数据库,
所述加速数据库,用于存储所述两个以上的词典中的每个词组对应的搜索结果条数信息;
所述第二获取模块,用于根据每个词典对应的分词结果包含的词组,从所述加速数据库中获取相应词组的搜索结果条数信息,根据获取的每个词组的搜索结果条数信息,确定每个词典对应的搜索结果条数信息;
所述确定模块,用于判断新词词典对应的搜索结果条数信息是否达到预定阈值,如果是,根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果,将新词词典对应的至少部分搜索结果确定为最终的搜索结果,如果否,根据新词词典的分词结果从倒排数据库中获取新词词典对应的搜索结果、且根据基本词典的分词结果从倒排数据库中获取基本词典对应的搜索结果,将新词词典对应的全部搜索结果和基本词典对应的至少部分搜索结果确定为最终的搜索结果,或者,根据与查询词的相关性,从新词词典对应的搜索结果和基本词典对应的搜索结果中各选出至少部分确定为最终的搜索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210232960.1/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置