[发明专利]一种信息搜索方法和装置无效
申请号: | 201210232960.1 | 申请日: | 2012-07-06 |
公开(公告)号: | CN103530298A | 公开(公告)日: | 2014-01-22 |
发明(设计)人: | 谢朴锐 | 申请(专利权)人: | 深圳市世纪光速信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张玉波;宋志强 |
地址: | 518057 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 信息 搜索 方法 装置 | ||
技术领域
本申请涉及信息搜索技术领域,尤其涉及一种信息搜索方法和装置。
背景技术
在当前信息化的社会中,信息搜索得到了广泛应用。目前的信息搜索过程一般包括:接收查询词,对查询词进行分词,根据分词结果查询倒排数据库,从倒排数据库中获取搜索结果,返回搜索结果。
其中,分词是指,根据词典中的词组,将分词目标(例如查询词)划分为词典中的一个或多个词组;倒排数据库用于存储待搜索文档的索引信息,具体地,倒排数据库以词典中的词组作为索引,每一词组对应了以该词组作为索引的所有待搜索文档的信息。
随着当前信息更新速度的加快,会不断涌现出新词,即未在词典中收录的词,这些新词常常可以由词典中已经收录的词组(简称旧词)组成,但是却拥有与组成该新词的各个旧词迥然不同的含义,比如“屌丝”由“屌”和“丝”组成,但是“屌丝”的含义却与“屌”和“丝”的含义完全不同。
由于新词的出现,将导致分词所基于的词典的内容也将发生变化,由于分词是以词典中收录的词组作为最小单元而进行的,因此,随着词典内容的变化,即在词典收录新词以前和收录新词之后,将导致针对同一分词目标的分词结果发生变化。
具体地,在进行分词所基于的词典收录新词之前,搜索引擎将按照词典中已收录的词组对该新词进行分词,得到组成该新词的各个词组,并根据组成该新词的各个词组从倒排数据库中获取搜索结果,例如在“屌丝”被收录到词典之前,对该“屌丝”的分词结果为“屌”和“丝”,则根据“屌”和“丝”从倒排数据库中获取搜索结果;在进行分词所基于的词典收录所述新词之后,搜索引擎将按照所述新词从倒排数据库中获取搜索结果。其中,倒排数据库中的文档索引信息,也会在词典中收录的词组更新以后,根据更新的词典中收录的词组重新对待搜索文档建立索引。
可见,目前的信息搜索方法中,由于词典的内容会随着新词的涌现和收录而不断发生变化,因此,导致搜索结果要么仅能查询到与组成查询词的各个词组相关的文档,要么仅能查询到与查询词本身相关的文档,信息搜索的结果不够全面。
发明内容
本申请提供了一种信息搜索方法和装置,从而使得信息搜索结果更加全面。
本申请的技术方案具体是这样实现的:
一种信息搜索方法,该方法包括:
获取查询词,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组;
根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息,从各个词典对应的搜索结果信息中确定最终的搜索结果。
一种信息搜索装置,该装置包括第一获取模块、分词模块、第二获取模块和确定模块;
所述第一获取模块,用于获取查询词;
所述分词模块,用于基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,其中,所述两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组;
所述第二获取模块,用于根据每个词典对应的分词结果分别获取搜索结果信息,得到每个词典对应的搜索结果信息;
所述确定模块,用于根据各个词典对应的搜索结果信息,确定最终的搜索结果。
由上述方案可见,本申请在接收到查询词以后,基于两个以上的词典分别对所述查询词进行分词,得到每个词典对应的分词结果,根据每个词典对应的分词结果分别获取每个词典对应的搜索结果信息以后,根据各个词典对应的搜索结果信息,确定最终的搜索结果,并且,其中所述的两个以上的词典包括基本词典和新词词典,所述新词词典用于存储所述基本词典中未收录的词组。可见,由于本申请中,基于基本词典和新词词典进行分词,由于对于新词等基本词典中未收录的词组,并非像现有技术那样直接更新词典中已有的词组,而是将新词等基本词典中未收录的词组另外存储在新词词典中,综合利用基本词典和新词词典对查询词进行分词,并根据分词结果获取搜索结果信息,进而确定最终的搜索结果,因此,能够解决现有技术中由于词典内容不断变化导致的问题,即解决搜索结果要么仅能查询到与组成查询词的各个词组相关的文档,要么仅能查询到与查询词本身相关的文档,搜索结果不够全面的问题,使得搜索结果更加全面,提高了信息搜索质量。
附图说明
图1是本发明提供的信息搜索方法流程图。
图2是本发明提供的信息搜索装置结构图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市世纪光速信息技术有限公司,未经深圳市世纪光速信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210232960.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置