[发明专利]等宽直方图并行构建方法有效

专利信息
申请号: 201710532574.7 申请日: 2017-07-03
公开(公告)号: CN107330083B 公开(公告)日: 2020-06-16
发明(设计)人: 杨观赐;王阳 申请(专利权)人: 贵州大学
主分类号: G06F16/901 分类号: G06F16/901
代理公司: 贵阳东圣专利商标事务有限公司 52002 代理人: 袁庆云
地址: 550025 贵州省*** 国省代码: 贵州;52
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种等宽直方图并行构建方法,其特征在于:使用两轮的所述MapReduce数据处理任务完成等宽直方图的构建,具体步骤如下:首先应获取文件全局最值。所有Map节点通过比较输出InputSplit内最大值、最小值至同一个Reduce节点再次进行比较可以获得文件在所有分片范围的全局最值MaxGMinG,然后依据全局最值在各Map节点构建具有相同边界值和桶个数的等宽直方图。同时,Map端至Reduce端仅涉及到InputSplit最值的传输和直方图桶信息的传输,与文件内数据记录数量无关,且直方图的构建提前至Map阶段,Reduce阶段通过对具有相同边界值的等宽直方图桶内频率信息的累加直接实现对Map端构建直方图的合并。本发明具有能降低网络传输量、直方图构建效率高的特点。
搜索关键词: 直方图 并行 构建 方法
【主权项】:
一种等宽直方图并行构建方法,包括分布式并行计算编程模型(MapReduce),该MapReduce将数据处理任务分为Map任务、Reduce任务,其特征在于:使用两轮的所述MapReduce数据处理任务进行等宽直方图的构建,具体步骤如下: 步骤1:第一轮MapReduce的任务1.1 Map阶段分别对读取数据块中数据值的比较得到本地最大值、最小值MaxL、MinL,本地最值与Map分割得到的数据进行比较更新最值信息,与InputSplit中所有数据比较后得到此Mapper对应数据块的最值;集群中包含多个Mapper;1.2 Reduce阶段多个Mapper节点比较后得到的最值集,Reduce端通过对多个Map节点的最值数据的比较得到整个数据文件的全局最大值、最小值MaxG、MinG; 步骤2:第二轮MapReduce任务2.1 Map阶段Map端读取全局最大值、最小值MaxG、MinG,并发送至集群中所有Map节点;各Map节点依据全局最大值、最小值MaxG、MinG及直方图桶数b构建本地等宽子直方图HL;2.2 Reduce阶段Reducer从多个Mapper节点复制多个子直方图HL,依次将同一分组内多条记录的数据频率值取出进行累加即得到数据文件在对应直方图桶内的总频率值,最后将桶对应左边界值、右边界值、总频率值直接输出至HDFS得到直方图HG,实现对多个子直方图进行合并。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710532574.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top