[发明专利]一种基于Hadoop的用户行为数据处理方法在审
申请号: | 201710191813.7 | 申请日: | 2017-03-27 |
公开(公告)号: | CN106951552A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 陈粤龙;陈敏俊;温亮生;张治中;赵瑞莉 | 申请(专利权)人: | 重庆邮电大学;中移(杭州)信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同恒源知识产权代理有限公司11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于Hadoop的用户行为数据处理方法,所述方法包括将用户历史数据源导入到分布式文件系统HDFS中;基于所述用户历史数据源生成用户的历史行为数据表;通过Flume收集用户的实时行为数据流;Kafka实时记录从所述Flume收集的数据;根据实时行为数据流的不同业务类型,运用实时计算框架Spark实时处理用户行为产生的实时数据,以生成用户的实时数据表;运用所述IMSI库中的IMSI号关联用户的实时数据表和历史行为数据表,得到用户的行为数据宽表;根据预设配置文件将所述用户的行为数据宽表输出并保存到HBase数据库中;将查询系统Impala与HBase数据库整合,以向外部提供用户行为数据的查询入口。本发明提供的技术方案,能够建立高效、精细化的用户行为数据业务体系。 | ||
搜索关键词: | 一种 基于 hadoop 用户 行为 数据处理 方法 | ||
【主权项】:
一种基于Hadoop的用户行为数据处理方法,其特征在于,所述方法包括:将用户历史数据源导入到分布式文件系统HDFS中,以通过所述HDFS提供数据访问接口;其中,所述用户历史数据源包括国际移动用户识别码IMSI库、国际移动设备身份码IMEI库以及爬虫库中的至少一种;基于所述用户历史数据源生成用户的历史行为数据表;通过数据采集工具Flume收集用户的实时行为数据流,所述实时行为数据流包括用户实时上网日志以及用户互联网行为实时解析数据;分布式订阅系统Kafka实时记录从所述Flume收集的数据,并作为消息缓冲组件为实时计算框架提供数据;根据实时行为数据流的不同业务类型,运用实时计算框架Spark实时处理用户行为产生的实时数据,以生成用户的实时数据表;运用所述IMSI库中的IMSI号关联用户的实时数据表和历史行为数据表,得到用户的行为数据宽表;根据预设配置文件将所述用户的行为数据宽表输出并保存到HBase数据库中;将查询系统Impala与HBase数据库整合,以向外部提供用户行为数据的查询入口。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学;中移(杭州)信息技术有限公司,未经重庆邮电大学;中移(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710191813.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种具有防尘引风机的粉碎系统
- 下一篇:调刀用工装