[发明专利]一种基于互索引结构的文本查询方法有效
申请号: | 201210071778.2 | 申请日: | 2012-03-16 |
公开(公告)号: | CN102637204A | 公开(公告)日: | 2012-08-15 |
发明(设计)人: | 吴明晖;金苍宏;应晶;陈天洲;刘源清;朱凡微 | 申请(专利权)人: | 浙江大学城市学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州宇信知识产权代理事务所(普通合伙) 33231 | 代理人: | 张宇娟 |
地址: | 310015 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 索引 结构 文本 查询 方法 | ||
技术领域
本发明属于信息检索技术领域,特别地涉及一种基于互索引结构的文本查询方法。
背景技术
信息爆炸时代,面对海量的数据,需要有效的信息获得途径来帮助用户检索,提取,整合信息。搜索引擎作为信息检索中的重要工具,日益成为人们获得信息的重要手段。搜索引擎的结构可以分为爬虫,数据处理,索引,匹配排序等部分。其中索引部分是构建引擎数据模型的核心,索引的结构,索引的大小,索引的更新效率等都直接影响搜索引擎的质量。常用的索引结构按索引构建原理分有:正向索引结构,倒排索引结构,位图索引结构,签名索引结构等。
对于搜索引擎中常用的单个词汇的查询,倒排索引,位图索引和签名索引都能比较好的支持。但是其中位图索引需要的空间较大,不合适于海量数据的检索。签名索引虽然能比较好的支持词语的查询,但面临着索引更新效率低的问题,同时还存在误配问题。而倒排索引由于结构简单,索引更新效率高,易于扩展等优势,因此被广泛的应用。但是对于短语查询等需要保持词序固定的匹配,倒排索引不能很好的支持这类操作。因为倒排索引基于基本的与或操作,虽然可以解决互相独立的词汇是否匹配的问题,但是无法保证这些词汇之间的词序的正确性。为了弥补这一缺陷,可以通过对词汇在索引文件中的位置信息计算,保证正确的词序。该方法的缺点是:第一,需要大量的计算操作,如N个词汇长度的短语,如果需要保证正确词序,需要进行时间复杂度为O((N*K)2)次比较操作,其中K表示为句子中的词汇所在的平均频率,在实际操作中,由于词汇频率很高,所以计算复杂度很高;第二,索引文件通常巨大且分散在不同的磁盘块中,为了获得句子中单词的位置信息,往往需要大量的读取索引文件的操作,这些文件读取I/O操作需要大量的读取磁盘,分散存放的索引导致寻道时间增加,因此机算性能比较低下。随着短语的长度和复杂度的提高,倒排索引对于词序固定短语匹配操作的性能更为低下。
故,针对目前现有技术中存在的上述缺陷,实有必要进行研究,以提供一种方案,解决现有技术中存在的缺陷,避免造成大量读取文件操作,I/O操作性能低下。
发明内容
为解决上述问题,本发明的目的在于提供一种基于互索引结构的文本查询方法,用于加快短语匹配的速度,减少I/O操作,提高查询效率。
为实现上述目的,本发明的技术方案为:
一种基于互索引结构的文本查询方法,为固定单词数的文本块设置固定长度的特征值,将所述特征值保存在特征索引文件中,所述特征索引文件和所述文本块之间互相引用,具体包括以下步骤:
对需要索引的文本文件进行分割操作,获得含有固定单词数的文本块数组,将所述文本块数组顺序地存放于文本文件中;
构建倒排索引结构,所述倒排索引结构包括单词,单词频率,单词出现的文本编号,单词在文本中出现的位置信息;
计算每一文本块的特征值,并将所述特征值保存在特征索引文件中;
在文本文件中的每个文本块的末尾,插入使用变长算法给出一个指针地址长度和根据所述指针地址长度获得指针值两个数值,所述指针值为特征索引文件中该文本块所对应的特征值地址;
根据文本文件中特定文本块的特征值索引,找到文本块特征值;
读取文本块特征值,将所述文本块特征值与查询单词的特征值进行比较,判断所述查询单词是否包含在所述文本块中,
若所述查询单词特征值包含在所述文本块特征值中,表示查询匹配,通过特征值索引文件中的文本块引用读取包含单词所在文本块信息;
若所述查询单词特征值不包含在所述文本块特征值中,表示查询不匹配。
与现有技术采用的倒排序结构相比,本发明对倒排索引结构进行了改进,从而通过该倒排索引结构可以初步定位候选的匹配文本块,然后通过互索引结构进行精确匹配,加快短语匹配的速度,减少I/O操作,提高查询效率。
附图说明
图1为本发明实施例的一种基于互索引结构的文本查询方法流程图;
图2为本发明实施例的一种基于互索引结构的文本查询方法步骤S10的流程图;
图3为本发明实施例的一种基于互索引结构的文本查询方法步骤S30的流程图;
图4为本发明实施例的一种基于互索引结构的文本查询方法步骤S50的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学城市学院,未经浙江大学城市学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210071778.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高原碧根果的加工方法
- 下一篇:牲口屠宰机