[发明专利]一种基于HDFS集群的海量数据分析统计方法有效
申请号: | 201710206439.3 | 申请日: | 2017-03-31 |
公开(公告)号: | CN107025140B | 公开(公告)日: | 2018-03-09 |
发明(设计)人: | 林森;唐宁;马娜 | 申请(专利权)人: | 北京快友世纪科技股份有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100020 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于HDFS集群的海量数据分析统计方法,其特征在于包括建立支线调度器,采用配置文件创建支线,初始化支线,数据分组,数据统计输出,以及释放资源。本发明通过设置支线,将全部数据扫描的次数从数据维度数降为1次,从而大幅提高统计分析数据的效率。并且,由于采用“支线”,在完成一个数据维度的统计后,负责该维度统计的支线所占用的系统资源释放将得到释放,这些系统资源又可运用于其他数据统计和分析,在不增加硬件设备的情况下,满足了当前广告业界对业务数据统计的高需求。 | ||
搜索关键词: | 一种 基于 hdfs 集群 海量 数据 分析 统计 方法 | ||
【主权项】:
一种基于HDFS集群的海量数据分析统计方法,其特征在于:建立支线调度器,由一个单独的管理节点实现;采用配置文件创建支线,所述支线是最小的统计单元,一个支线完成一个数据维度的统计;初始化支线,支线调度器赋予支线在本次统计任务中一个全局唯一的支线ID;数据分组,进行全部数据扫描,将原始数据根据不同支线所需要统计的数据维度进行划分并赋予对应的分组键,形成[分组键,数据值]键值对,所述分组键含有对应的支线ID信息;数据合并,在各个工作节点中根据键值对的分组键将支线ID解析出来,再根据支线ID 去支线调度器中找到对应支线,然后将具有相同分组键的键值对归入对应支线中,在每个支线中对键值对中的数据值进行统计,合并成一对分组数据;数据统计输出,将集群中的各个节点的分组数据汇集在一起,将具有相同分组键的分组数据进行归约,最后将归约结果输出至对应支线,再由支线输出;释放资源,在完成一个数据维度的统计后支线调度器将负责该数据维度统计的支线所占用的系统资源释放;所述支线的数量与工作节点的数量的比值为0.67‑1之间。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京快友世纪科技股份有限公司,未经北京快友世纪科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710206439.3/,转载请声明来源钻瓜专利网。