[发明专利]基于MapReduce的大数据近似处理方法有效

申请号：	201710230053.6	申请日：	2017-04-10
公开（公告）号：	CN106997303B	公开（公告）日：	2020-07-17
发明（设计）人：	蔡志平;孙文成	申请（专利权）人：	中国人民解放军国防科学技术大学
主分类号：	G06F9/455	分类号：	G06F9/455
代理公司：	湖南省国防科技工业局专利中心 43102	代理人：	冯青
地址：	410073 ***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及基于MapReduce的大数据近似处理方法。提出的近似计数MapReduce编程模型，所有项共享计数器，减少了存储空间和通信代价。本发明用较小的性能代价，获得有一定偏差的近似处理结果，以提高MapReduce的处理速度。本发明在近似计数的基础上，计算估计值的置信水平和标准差，并且随着可用存储空间和可用宽带的增加，准确度也会得到提高。另外，当给定目标准确度时，可以确定所需要的最小内存空间。
搜索关键词：	基于 mapreduce 数据近似处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于MapReduce的大数据近似处理方法，提出的近似计数的MapReduce模型，每一个项对应l个计数器，而每一个计数器对多个项进行计数，项的数量远大于计数器的数量，由此减少计数器对内存空间的占用和通信代价，其特征在于，在对电子交易数据进行计数时，项和计数器之间并不是一一对应的，计数器的数目远小于项的数目；在对中间文件的处理上，通过对Map虚拟机进行分组，减少通信代价；在计数结果的准确度方面，计数结果不是准确的结果，但是其置信区间和标准误差可控；在内存空间使用方面，通过减少计数器的使用，大幅度减少对内存空间的使用，在Map阶段，总共有s个虚拟机，在Reduce阶段，总共有t个虚拟机，本发明默认s与t的选取必须保证为整数且s远大于t，在Map阶段，虚拟机被分为t组，每组有个虚拟机，分别对应Reduce阶段的一个虚拟机，Map阶段结束之后，Map阶段的虚拟机会将所有的数值发送给对应的Reduce虚拟机；Map和Reduce阶段共有s+t台虚拟机，所有虚拟机的配置都是一样的，即每台虚拟机都有m个计数器，这m个计数器被均分为l组，那么，每组计数器的数量为个，本发明默认m和l的选取必须保证为整数，该虚拟机的第i组计数器被记为Mi，0≤i<l，第i组中的第j个计数器记为Mi[j]，对于任意一个项k，k的每次出现，VM都会生成一个随机数r，0≤r<l，并执行哈希函数，即生成h，且Mr[h]加1，因为r是随机生成的，因此项k的每次出现都会被l个计数器中的任意一个计数器记录，即M0[H(k,0)]，M1[H(k,1)]…Ml‑1[H(k,l‑1)]，这些计数器被称为k的代表计数器，对项k的计数只由项k所对应的代表计数器进行计数，并且在任意一台虚拟机中，项k所对应的代表计数器的索引是相同的，因此不同虚拟机的计数值根据计数器索引相加。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学，未经中国人民解放军国防科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710230053.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于MapReduce的大数据近似处理方法有效

专利文献下载