[发明专利]一种基于分布式架构的日志数据存储和检索方法有效
申请号: | 201510465138.3 | 申请日: | 2015-07-31 |
公开(公告)号: | CN105138592B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 杨定义;蔡剑峰;陈亮;李磊;肖伟民;余道敏 | 申请(专利权)人: | 武汉虹信技术服务有限责任公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 赵丽影 |
地址: | 430073 湖北省武汉市武汉东湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于分布式架构的日志数据存储和检索方法,以解决海量用户上网日志数据的高性能存储问题和在多维度、多关键字条件下数据检索慢的问题。本发明的一个方面提供用户上网日志数据存储的方法,主要利用HBase和Solr实现分布式数据存储和索引创建,其中包括用户上网日志数据以条目形式存储到HBase中,建立唯一标识的方法,对用户上网日志数据进行维度拆分和维度分词处理,建立查询维度和分词关键字与数据标识之间的索引关系的方法,对日志数据进行维度拆分的方法,对维度进行分词处理的方法,还有根据维度和分词关键字建立索引的方法。本发明的另一方面提供用户上网日志数据检索方法,主要包括多维度、多关键字检索条件的组织和数据访问的方法。 | ||
搜索关键词: | 一种 基于 分布式 架构 日志 数据 存储 检索 方法 | ||
【主权项】:
1.一种基于分布式架构的日志数据存储和检索方法,其特征在于:包括利用HBase和Solr实现海量日志数据的存储方法和日志数据的检索方法;所述日志数据的存储方法包括日志数据的存储和索引创建方法,具体包括以下步骤:102、从用户上网日志数据文件中获取日志数据条目,并按维度进行分解;103、对用户上网日志数据业务摘要数据部分进行分词处理;104、生成全局唯一Rowkey,生成Solr索引数据,Rowkey起到主键的作用,是日志数据在HBase数据库系统中全局且唯一的标识;105、将原始用户上网日志数据和生成的索引数据写入到Redis消息队列:将Rowkey、用户上网日志数据,Solr索引数据写入到基于Redis实现的消息队列中;106、从Redis消息队列中获取消息并解析,获取用户上网日志数据和Solr索引数据;107、将用户上网日志数据写入到HBase数据库中;108、将Solr索引数据写入到Solr集群中;所述步骤102的具体过程为:对于支持多种用户上网日志数据格式文件,对每一条日志数据条目,按检索维度进行数据拆分;支持的数据文件格式包括有约定分隔符的普通文本txt格式,逗号分隔csv格式,扩展标记语言xml格式,系统日志syslog格式;所述步骤104中,全局唯一Rowkey的生成规则为:“时间戳:UUID”,时间戳的具体格式为:“YYYYMMDDhhmm”,解读为:“年月日时分”,UUID则使用通用的UUID生成器来生成;所述Solr索引数据建立的过程就是生成一个Solr中一个文档Document数据,文档数据中主要描述日志数据拆分后的维度数据、业务数据分词后关键字与Rowkey之间接映射关系;所述步骤107的具体过程为将Rowkey与用户上网日志数据以键值对Key‑Value Pair的方式存储到HBase数据库中;所述步骤108的具体过程为利用Solr提供的基于HTTP的SOA接口,利用HTTP POST方法将索引数据提交到Solr集群中;所述日志数据的检索方法包括日志数据多维度、多关键字检索的方法,具体包括以下步骤:202、客户端组织用户上网日志数据检索条件,调用Solr外部检索SOA接口,利用Solr的基于HTTP的SOA查询接口,通过组合维度条件和关键字条件,从Solr中检索出满足条件的日志数据条目的Rowkey;203、客户端解析SOA接口调用返回的检索结果集,提取Rowkey列表;204、客户端遍历Rowkey列表,从HBase中查询用户上网日志数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉虹信技术服务有限责任公司,未经武汉虹信技术服务有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510465138.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种棘轮调节电视机支撑架
- 下一篇:一种延时卫生水龙头