[发明专利]索引建立方法及装置在审
申请号: | 201310484767.1 | 申请日: | 2013-10-16 |
公开(公告)号: | CN104572678A | 公开(公告)日: | 2015-04-29 |
发明(设计)人: | 于晓明;张涛;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引 建立 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种索引建立方法及装置。
背景技术
短语的传统查询方案为,将短语通过分词获得其对应的词,遍历文档中的所有词,获得此文档中该短语对应的所有词的位置信息,比较各个词之间的位置关系,检测这些词中的相邻词合并后是否为所述短语,若是,则将所述相邻词中位置靠前的词的位置信息作为所述短语的位置信息,从而获得所述短语在该文档中的位置。
但是,在实际应用个,由于高频短语对应的词在文档中出现的次数较多,相应的,这些词的位置信息也会比较多,这就会导致针对高频短语的查询效率较低。
发明内容
本发明提供一种索引建立方法及装置,用于解决现有的短语查询方案中高频短语的查询效率较低的问题。
本发明的第一个方面是提供一种索引建立方法,包括:
通过分词获得第一文档中的各个词,针对所述各个词中的每个高频词,将所述高频词和与其相邻的另一高频词合并为短语;
针对所述短语中的每个高频短语,生成并存储第一索引至所述第一文档对应的索引段,以对所述高频短语进行查询,所述第一索引包括所述高频短语在所述第一文档中的位置信息;
其中,每个高频词的出现次数均不小于第一预设值,每个高频短语的出现次数均不小于第二预设值。
本发明的另一个方面是提供一种索引建立装置,包括:
第一合并模块,用于通过分词获得第一文档中的各个词,针对所述各个词中的每个高频词,将所述高频词和与其相邻的另一高频词合并为短语;
第一处理模块,用于针对所述短语中的每个高频短语,生成并存储第一索引至所述第一文档对应的索引段,所述第一索引包括所述高频短语在所述第一文档中的位置信息;
其中,每个高频词的出现次数均不小于第一预设值,每个高频短语的出现次数均不小于第二预设值。
本发明提供的索引建立方法及装置,通过预先建立当前文档中各高频短语的索引,以对所述高频短语进行查询的技术方案,实现对文档中各高频短语的方便、高效的查询。
附图说明
图1为本发明实施例一提供的一种索引建立方法的流程示意图;
图2为本发明实施例二提供的一种索引建立装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1为本发明实施例一提供的一种索引建立方法的流程示意图,如图1所示,所述方法包括:
101、通过分词获得第一文档中的各个词,针对所述各个词中的每个高频词,将所述高频词和另一与所述高频词相邻且未被合并的高频词合并为短语。
其中,每个高频词的出现次数均不小于第一预设值。在实际应用中,除了需要对高频短语进行查询之外,通常也需要对文档中的词进行查询,则相应的,在101中所述通过分词获得第一文档中的各个词之后,还可以包括:
获得所述第一文档中的各个词的位置信息;
将所述第一文档中各相同的词的位置信息的集合,作为所述词在所述第一文档中的位置信息,生成并存储第二索引至所述第一文档对应的索引段,所述第二索引包括所述词在所述第一文档中的位置信息。
通过本实施方式,能够预先建立文档中各个词的索引,并且通过将相同词的位置信息进行合并,能够进一步节省索引所占用的存储空间。
102、针对所述短语中的每个高频短语,生成并存储第一索引至所述第一文档对应的索引段,以对所述高频短语进行查询,所述第一索引包括所述高频短语在所述第一文档中的位置信息。
其中,每个高频短语的出现次数均不小于第二预设值。在实际应用中,为了获得与所述高频词相邻的词,在所述通过分词获得第一文档中的各个词之后,还可以包括:
针对所述各个词中的每个高频词,获得所述高频词的位置信息和长度;
针对所述高频词的每个位置信息,在其它各高频词的位置信息中,若存在第一位置信息与所述高频词的位置信息的差值为所述高频词的长度,则判定所述第一位置信息对应的高频词与所述高频词相邻;
若所述高频词和所述第一位置信息对应的高频词合并后的短语为高频短语,则将所述第一位置信息和所述高频词的位置信息中,靠前的位置信息作为所述合并后的短语在所述第一文档中的位置信息之一。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司;,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310484767.1/2.html,转载请声明来源钻瓜专利网。