[发明专利]等宽直方图并行构建方法有效
申请号: | 201710532574.7 | 申请日: | 2017-07-03 |
公开(公告)号: | CN107330083B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 杨观赐;王阳 | 申请(专利权)人: | 贵州大学 |
主分类号: | G06F16/901 | 分类号: | G06F16/901 |
代理公司: | 贵阳东圣专利商标事务有限公司 52002 | 代理人: | 袁庆云 |
地址: | 550025 贵州省*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种等宽直方图并行构建方法,其特征在于:使用两轮的所述MapReduce数据处理任务完成等宽直方图的构建,具体步骤如下:首先应获取文件全局最值。所有Map节点通过比较输出InputSplit内最大值、最小值至同一个Reduce节点再次进行比较可以获得文件在所有分片范围的全局最值 |
||
搜索关键词: | 直方图 并行 构建 方法 | ||
【主权项】:
一种等宽直方图并行构建方法,包括分布式并行计算编程模型(MapReduce),该MapReduce将数据处理任务分为Map任务、Reduce任务,其特征在于:使用两轮的所述MapReduce数据处理任务进行等宽直方图的构建,具体步骤如下: 步骤1:第一轮MapReduce的任务1.1 Map阶段分别对读取数据块中数据值的比较得到本地最大值、最小值MaxL、MinL,本地最值与Map分割得到的数据进行比较更新最值信息,与InputSplit中所有数据比较后得到此Mapper对应数据块的最值;集群中包含多个Mapper;1.2 Reduce阶段多个Mapper节点比较后得到的最值集,Reduce端通过对多个Map节点的最值数据的比较得到整个数据文件的全局最大值、最小值MaxG、MinG; 步骤2:第二轮MapReduce任务2.1 Map阶段Map端读取全局最大值、最小值MaxG、MinG,并发送至集群中所有Map节点;各Map节点依据全局最大值、最小值MaxG、MinG及直方图桶数b构建本地等宽子直方图HL;2.2 Reduce阶段Reducer从多个Mapper节点复制多个子直方图HL,依次将同一分组内多条记录的数据频率值取出进行累加即得到数据文件在对应直方图桶内的总频率值,最后将桶对应左边界值、右边界值、总频率值直接输出至HDFS得到直方图HG,实现对多个子直方图进行合并。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州大学,未经贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710532574.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种电子文件可信收集方法以及装置
- 下一篇:一种网络销售数据管理方法及系统