[发明专利]一种基于HBase的构建和检索增量索引的方法有效
申请号: | 201310298976.7 | 申请日: | 2013-07-16 |
公开(公告)号: | CN103390038A | 公开(公告)日: | 2013-11-13 |
发明(设计)人: | 郑庆华;董博;贺欢;宋凯磊;徐海鹏;马天;陈亚兴 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 朱海临 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于HBase的构建和检索增量索引的方法,包括以下步骤:基于HBase的列存储机制设计索引的存储结构,使用三个数据表分别保存原始文本、索引信息和统计信息;设计面向Web的待索引文本获取接口,提供基于HTTP协议的文本索引服务;对持续增加的文本构建增量索引,当新的待索引文本产生并到达时,索引系统不重新将全部数据构建索引,将新增文本的索引追加存储到已有索引中,在存储索引时,先将所有文本内容以及索引信息其放入缓冲区,当缓冲区的数据量达到阈值时批量写入数据;提供多种格式结果的检索服务接口,用户通过面向Web的接口使用检索服务,检索系统将按照用户提交的搜索请求进行检索并按用户的要求对检索结果进行格式化。 | ||
搜索关键词: | 一种 基于 hbase 构建 检索 增量 索引 方法 | ||
【主权项】:
一种基于HBase的构建和检索增量索引的方法,其特征在于,包括下述步骤:(1)利用HBase来设计增量索引的存储结构利用HBase的数据列动态可扩展的特点,将词元作为关键字主键,将文本主键作索引存储表的列字段名称,利用HBase的分布式存储的特点,实现对大规模文本和索引信息的存储,索引系统同时为多个不同的数据源分别提供索引服务;为了有效的存储索引信息,共设计三个表:a、表Ttext存储索引数据的原始信息,字段包括文本主键,文本内容与来源等信息;b、表Tindex存储数据的索引信息,字段包括关键字主键,含有关键字的数据内容所对应的全部文本主键索引列,且表Tindex中的文本主键索引列随着持续增加的索引数据而动态的增加;c、表Tstatistic存储统计信息,包括总文本数量,总关键字数量;(2)提供面向Web的待索引文本获取接口;(3)对持续增加的文本构建增量索引当新增文本产生并到达时,索引系统将新增文本的索引追加存储到已有索引中,不重新对全部数据构建索引,具体方法为:a、根据表Tstatistic中的总文本数量,对新的待索引文本生成新文本主键,然后采用缓冲机制,将新文本主键和数据内容存入缓冲区,使用缓冲区将原始文本追加到表Ttext;b、将待索引文本分词得到词元,英文以单词为词元分词,中文以字、词作为词元分词,记录词元在内容中出现的数量、位置信息;最后,在表Tindex中以词元作为关键字主键进行查询,根据查询结果,增加新的索引信息,有两种情况:①如果表Tindex中已存在该关键字主键,则在已有的文本主键索引列基础上,将新文本主键追加为该关键字主键的索引列;②如果表Tindex中不存在该关键字主键,则在表Tindex中新增该关键字主键,并将新文本主键作为新的索引列,采用缓冲机制,将新的索引信息存入缓冲区,使用缓冲区将索引信息存入表Tindex,根据文本主键的数量和关键字主键的数量,将表Tstatistic中的总文本数量、总关键字数量等信息更新;(4)提供多种格式检索结果的服务接口。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310298976.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种医疗检测设备的数据的转换及更改方法
- 下一篇:变压器套管渗油检修工具