[发明专利]基于MapReduce的大数据近似处理方法有效
申请号: | 201710230053.6 | 申请日: | 2017-04-10 |
公开(公告)号: | CN106997303B | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 蔡志平;孙文成 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F9/455 | 分类号: | G06F9/455 |
代理公司: | 湖南省国防科技工业局专利中心 43102 | 代理人: | 冯青 |
地址: | 410073 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及基于MapReduce的大数据近似处理方法。提出的近似计数MapReduce编程模型,所有项共享计数器,减少了存储空间和通信代价。本发明用较小的性能代价,获得有一定偏差的近似处理结果,以提高MapReduce的处理速度。本发明在近似计数的基础上,计算估计值的置信水平和标准差,并且随着可用存储空间和可用宽带的增加,准确度也会得到提高。另外,当给定目标准确度时,可以确定所需要的最小内存空间。 | ||
搜索关键词: | 基于 mapreduce 数据 近似 处理 方法 | ||
【主权项】:
基于MapReduce的大数据近似处理方法,提出的近似计数的MapReduce模型,每一个项对应l个计数器,而每一个计数器对多个项进行计数,项的数量远大于计数器的数量,由此减少计数器对内存空间的占用和通信代价,其特征在于,在对电子交易数据进行计数时,项和计数器之间并不是一一对应的,计数器的数目远小于项的数目;在对中间文件的处理上,通过对Map虚拟机进行分组,减少通信代价;在计数结果的准确度方面,计数结果不是准确的结果,但是其置信区间和标准误差可控;在内存空间使用方面,通过减少计数器的使用,大幅度减少对内存空间的使用,在Map阶段,总共有s个虚拟机,在Reduce阶段,总共有t个虚拟机,本发明默认s与t的选取必须保证为整数且s远大于t,在Map阶段,虚拟机被分为t组,每组有个虚拟机,分别对应Reduce阶段的一个虚拟机,Map阶段结束之后,Map阶段的虚拟机会将所有的数值发送给对应的Reduce虚拟机;Map和Reduce阶段共有s+t台虚拟机,所有虚拟机的配置都是一样的,即每台虚拟机都有m个计数器,这m个计数器被均分为l组,那么,每组计数器的数量为个,本发明默认m和l的选取必须保证为整数,该虚拟机的第i组计数器被记为Mi,0≤i<l,第i组中的第j个计数器记为Mi[j],对于任意一个项k,k的每次出现,VM都会生成一个随机数r,0≤r<l,并执行哈希函数,即生成h,且Mr[h]加1,因为r是随机生成的,因此项k的每次出现都会被l个计数器中的任意一个计数器记录,即M0[H(k,0)],M1[H(k,1)]…Ml‑1[H(k,l‑1)],这些计数器被称为k的代表计数器,对项k的计数只由项k所对应的代表计数器进行计数,并且在任意一台虚拟机中,项k所对应的代表计数器的索引是相同的,因此不同虚拟机的计数值根据计数器索引相加。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710230053.6/,转载请声明来源钻瓜专利网。
- 上一篇:客户端的显示模式的处理方法和装置
- 下一篇:智能化制药生产装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置