[发明专利]基于MapReduce的大数据近似处理方法有效

专利信息
申请号: 201710230053.6 申请日: 2017-04-10
公开(公告)号: CN106997303B 公开(公告)日: 2020-07-17
发明(设计)人: 蔡志平;孙文成 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06F9/455 分类号: G06F9/455
代理公司: 湖南省国防科技工业局专利中心 43102 代理人: 冯青
地址: 410073 *** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及基于MapReduce的大数据近似处理方法。提出的近似计数MapReduce编程模型,所有项共享计数器,减少了存储空间和通信代价。本发明用较小的性能代价,获得有一定偏差的近似处理结果,以提高MapReduce的处理速度。本发明在近似计数的基础上,计算估计值的置信水平和标准差,并且随着可用存储空间和可用宽带的增加,准确度也会得到提高。另外,当给定目标准确度时,可以确定所需要的最小内存空间。
搜索关键词: 基于 mapreduce 数据 近似 处理 方法
【主权项】:
基于MapReduce的大数据近似处理方法,提出的近似计数的MapReduce模型,每一个项对应l个计数器,而每一个计数器对多个项进行计数,项的数量远大于计数器的数量,由此减少计数器对内存空间的占用和通信代价,其特征在于,在对电子交易数据进行计数时,项和计数器之间并不是一一对应的,计数器的数目远小于项的数目;在对中间文件的处理上,通过对Map虚拟机进行分组,减少通信代价;在计数结果的准确度方面,计数结果不是准确的结果,但是其置信区间和标准误差可控;在内存空间使用方面,通过减少计数器的使用,大幅度减少对内存空间的使用,在Map阶段,总共有s个虚拟机,在Reduce阶段,总共有t个虚拟机,本发明默认s与t的选取必须保证为整数且s远大于t,在Map阶段,虚拟机被分为t组,每组有个虚拟机,分别对应Reduce阶段的一个虚拟机,Map阶段结束之后,Map阶段的虚拟机会将所有的数值发送给对应的Reduce虚拟机;Map和Reduce阶段共有s+t台虚拟机,所有虚拟机的配置都是一样的,即每台虚拟机都有m个计数器,这m个计数器被均分为l组,那么,每组计数器的数量为个,本发明默认m和l的选取必须保证为整数,该虚拟机的第i组计数器被记为Mi,0≤i<l,第i组中的第j个计数器记为Mi[j],对于任意一个项k,k的每次出现,VM都会生成一个随机数r,0≤r<l,并执行哈希函数,即生成h,且Mr[h]加1,因为r是随机生成的,因此项k的每次出现都会被l个计数器中的任意一个计数器记录,即M0[H(k,0)],M1[H(k,1)]…Ml‑1[H(k,l‑1)],这些计数器被称为k的代表计数器,对项k的计数只由项k所对应的代表计数器进行计数,并且在任意一台虚拟机中,项k所对应的代表计数器的索引是相同的,因此不同虚拟机的计数值根据计数器索引相加。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710230053.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top