[发明专利]一种大数据平台上的电力数据去重方法在审
申请号: | 201711357303.9 | 申请日: | 2017-12-16 |
公开(公告)号: | CN108090186A | 公开(公告)日: | 2018-05-29 |
发明(设计)人: | 邹保平;赖伟平;张杨华;林佳能;林笔星;苏志勇;陈明辉;林庆瑞;林宇;徐禄 | 申请(专利权)人: | 国网信通亿力科技有限责任公司;国家电网公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q10/10;G06Q50/06 |
代理公司: | 福州智理专利代理有限公司 35208 | 代理人: | 康永辉 |
地址: | 361007 福建省厦门市思*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种大数据平台上的电力数据去重方法,本发明重复数据删除使用的总体架构为分布式:分布式的总体架构通过把去重过程分布到多个节点上执行,从而避免系统瓶颈和单点故障。本发明对数据进行判重之前,会对数据内容本身进行哈希计算,将不定长度的文件内容转化为固定长度的指纹可以大大地提高判重的效率。哈希计算采用两种类型的算法:MD5算法,SHA‑1算法。使用两种函数进行计算,这减少了些函数都存在着数据冲突的可能性,即不同的数据内容可能对应同一个数据哈希值。 | ||
搜索关键词: | 去重 电力数据 哈希计算 数据内容 大数据 算法 架构 文件内容转化 重复数据删除 避免系统 单点故障 数据冲突 哈希 指纹 瓶颈 | ||
【主权项】:
1.一种大数据平台上的电力数据去重方法,其特征在于, 所述的大数据平台上的电力数据去重方法为分布式的总体架构:分布式的总体架构通过把去重过程分布到多个节点上执行;所述的方法所指去重域指的是当用户上传数据的时候,判重过程中数据的对比对象的集合;基于此,去重域分为两类:基于单用户的本地去重域;基于所有用户的全局去重域;在电力数据去重的时候,在客户端采用单用户的本地去重域,在服务端采用基于所有用户的全局去重域;去重的可选位置有两种:客户端的源端去重和服务器端的目的端去重;源端去重在用户实际上传数据之前首先对数据的唯一性进行判定然后只传送新的数据到服务器端;目的端的去重中,所有的用户数据都会直接传递给服务器端;然后服务器端会利用后台进程对用户的文件进行指纹计算、数据判重以及后续的重复数据删除工作;对数据进行判重之前,会对数据内容本身进行哈希计算,将不定长度的文件内容转化为固定长度的指纹;哈希计算采用两种类型的算法: MD5 算法,SHA-1 算法;设计的去重粒度有两种:文件级和块级:文件级的去重粒度将整个文件作为操作的对象和基本单位,而块级的去重会首先将一个文件划分成多个更小的数据块然后执行去重;对于非结构化数据采用文件级去重,对于结构化数据采用块级去重;所述的方法获取存储于大数据集群中任意一个或多个节点中,或者分布于任意资源中的电力大数据,按照大数据集群系统的指定输入类格式,对获得的电力数据进行映射处理,按照所述大数据集群系统的归集框架的指定类格式,对所述映射处理的结果,进行归集,归集处理的结果是对电力数据去重的结果;具体步骤:先利用大数据平台计算框架来编写映射函数和归集函数;其中映射函数和归集函数可同时分布在大数据平台集群的同一个节点中,也可以分布在归约集群的不同节点中;映射函数可以在归约集群的一个节点中顺序执行,也可以在归约集群的多个节点中同时并发执行映射函数;可以在归约集群的多个节点中执行映射函数,并且同时在归约集群的多个节点中执行归集函数;其次设计所有函数的类结构:ParseExtractDriver类为实现电力数据抽取、去重功能的主类,在这个类中,还包括映射归集任务的映射类、以及归集类,这两个类通过实现映射或是归集接口,分别完成映射归集任务中的映射任务和归集任务:此外,该类图中还包含有从数据解析类、数据规范化类和数据过滤类,完成数据过滤任务、规则匹配和合法性校验,多路径序列文件输入格式类指定该功能模块输出的数据块格式;所有函数运行的时序:首先将大数据平台中的电力数据文件按照HDFS系统文件块的大小,先划分为不同的数据块,在每一个数据块中,按照待采集的电力数据的格式划分为不同的数据记录,此外,还将未入库中的电力数据文件按照HDFS系统文件块的大小,先划分为不同的数据块,在每一个数据块中,按照待采集的电力数据的格式划分为不同的数据记录;其次,在映射函数中根据数据格式记录的状态字段的值判断该数据对应是否为被采集的数据,如果对应为已采集的数据,则以将哈希值和状态直接写入到中间数据文件中,否则,表明该数据对应的为新数据,调用采集接口进行数据采集,然后对于刚采集的数据,将其状态字段值设置为已采集;最后,在归集阶段根据映射阶段的中间结果处理,对数据进行去重归集保存。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网信通亿力科技有限责任公司;国家电网公司,未经国网信通亿力科技有限责任公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711357303.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种客户信息查重方法
- 下一篇:一种视频相似判定方法