[发明专利]一种大数据平台上的电力数据去重方法在审
申请号: | 201711357303.9 | 申请日: | 2017-12-16 |
公开(公告)号: | CN108090186A | 公开(公告)日: | 2018-05-29 |
发明(设计)人: | 邹保平;赖伟平;张杨华;林佳能;林笔星;苏志勇;陈明辉;林庆瑞;林宇;徐禄 | 申请(专利权)人: | 国网信通亿力科技有限责任公司;国家电网公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q10/10;G06Q50/06 |
代理公司: | 福州智理专利代理有限公司 35208 | 代理人: | 康永辉 |
地址: | 361007 福建省厦门市思*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 去重 电力数据 哈希计算 数据内容 大数据 算法 架构 文件内容转化 重复数据删除 避免系统 单点故障 数据冲突 哈希 指纹 瓶颈 | ||
本发明涉及一种大数据平台上的电力数据去重方法,本发明重复数据删除使用的总体架构为分布式:分布式的总体架构通过把去重过程分布到多个节点上执行,从而避免系统瓶颈和单点故障。本发明对数据进行判重之前,会对数据内容本身进行哈希计算,将不定长度的文件内容转化为固定长度的指纹可以大大地提高判重的效率。哈希计算采用两种类型的算法:MD5算法,SHA‑1算法。使用两种函数进行计算,这减少了些函数都存在着数据冲突的可能性,即不同的数据内容可能对应同一个数据哈希值。
技术领域
本发明涉及一种大数据平台上的电力数据去重方法。
背景技术
随着信息技术的不断发展,电力信息管理系统作为大型企业生产信息化的重要基础数据平台,产生了大量的数据。以电力系统为例,一方面其数据规模越来越大,其中用电信息采集、调度等系统大的数据规模预计将达到千万甚至上亿规模,数据存储容量到达PB字节以上。另一方面数据的类型越来越多:时序数据、关系型数据、音频数据、视频数据、文档数据等等,数据类型越来越多样。常规的关系数据库根本无法应对如此高速复杂数据处理的挑战,因此,越来越多的电力数据存储在大数据平台。这里边有很多的重复数据,占用了大量的存储资源,因此,需要对电力数据进行去除重复数据的处理。
发明内容
本发明提供一种大数据平台上的电力数据去重方法,本发明所采用的技术方案是:
所述的大数据平台上的电力数据去重方法为分布式的总体架构:分布式的总体架构通过把去重过程分布到多个节点上执行从而避免系统瓶颈和单点故障;
所述的方法所指去重域指的是当用户上传数据的时候,判重过程中数据的对比对象的集合;基于此,去重域分为两类:基于单用户的本地去重域;基于所有用户的全局去重域;
在电力数据去重的时候,在客户端采用单用户的本地去重域,在服务端采用基于所有用户的全局去重域;
去重的可选位置有两种:客户端的源端去重和服务器端的目的端去重;源端去重在用户实际上传数据之前首先对数据的唯一性进行判定然后只传送新的数据到服务器端;目的端的去重中,所有的用户数据都会直接传递给服务器端;然后服务器端会利用后台进程对用户的文件进行指纹计算、数据判重以及后续的重复数据删除工作;
对数据进行判重之前,会对数据内容本身进行哈希计算,将不定长度的文件内容转化为固定长度的指纹;
哈希计算采用两种类型的算法: MD5 算法,SHA-1 算法;
设计的去重粒度有两种:文件级和块级:文件级的去重粒度将整个文件作为操作的对象和基本单位,而块级的去重会首先将一个文件划分成多个更小的数据块然后执行去重;对于非结构化数据采用文件级去重,对于结构化数据采用块级去重;
所述的方法获取存储于大数据集群中任意一个或多个节点中,或者分布于任意资源中的电力大数据,按照大数据集群系统的指定输入类格式,对获得的电力数据进行映射处理,按照所述大数据集群系统的归集框架的指定类格式,对所述映射处理的结果,进行归集,归集处理的结果是对电力数据去重的结果;
具体步骤:
先利用大数据平台计算框架来编写映射函数和归集函数;其中映射函数和归集函数可同时分布在大数据平台集群的同一个节点中,也可以分布在归约集群的不同节点中;映射函数可以在归约集群的一个节点中顺序执行,也可以在归约集群的多个节点中同时并发执行映射函数;可以在归约集群的多个节点中执行映射函数,并且同时在归约集群的多个节点中执行归集函数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网信通亿力科技有限责任公司;国家电网公司,未经国网信通亿力科技有限责任公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711357303.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种客户信息查重方法
- 下一篇:一种视频相似判定方法