[发明专利]一种基于Spark Streaming的流式大规模电力数据分析方法在审
| 申请号: | 201910337786.9 | 申请日: | 2019-04-25 |
| 公开(公告)号: | CN110047016A | 公开(公告)日: | 2019-07-23 |
| 发明(设计)人: | 黄建平;钱仲文;张旭东;夏洪涛;王文;杨少杰;王政;陈浩;张建松;沈思琪;正卓凡;毛宾一;吴敏彦;王亿;陈显辉;黄杰;王炎;陈耀军;沈峰;周明磊;纪德良 | 申请(专利权)人: | 国网浙江省电力有限公司;浙江华云信息科技有限公司 |
| 主分类号: | G06Q50/06 | 分类号: | G06Q50/06;G06F16/245;G06K9/62 |
| 代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
| 地址: | 310007*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 聚类 电力数据分析 数据流 电力数据 聚类中心 流式 相似性搜索 实验评估 真实数据 传统的 数据集 有效地 离线 并行 测试 改进 发现 | ||
1.一种基于Spark Streaming的流式大规模电力数据分析方法,其执行步骤如下:
第一步,利用SS树进行在线电力数据流的相似性搜索,以对电力数据进行聚类;
第二步,Spark并行K均值聚类法对离线电力数据流进行聚类;
本步骤具体为:
S201:MAP函数处理,具体为:
以<Key,value>形式存储离线电力数据流,其中,Key是当前电力数据样本相对于输入数据文件起点的偏移量,value是当前电力数据样本的坐标值字符串;
将当前电力数据样本各维的值解析出来,计算当前电力数据样本与各聚类中心的距离,聚类中心初始值为第一步所获得的聚类中心;找出最近聚类中心的编号Key',最后将当前电力数据样本以<Key',value'>形式存储,value'表示当前电力数据样本的坐标值字符串;
S202:Combine函数处理,具体为:
从MAP函数输出的坐标值字符串中依次解析每个电力数据样本的坐标值,对坐标值累加,并输出各电力数据样本对应的聚类中心编号、坐标累加值和样本总数;
S203:Reduce函数处理,具体为:
分析每个联合体处理的样本数和每个维度中各样本对应的坐标累加值,利用Reduce函数更新各电力数据样本所在聚类中心的坐标,之后继续采用MAP函数处理,直至聚类中心坐标收敛。
2.如权利要求1所述的流式大规模电力数据分析方法,其特征在于:
第一步进一步包括:
S101;初始化树结构,并对接收到的电力数据进行聚类,生成多个微聚类;
S102:一旦有新电力数据点X到达,判断X到每个微簇中心的距离是否大于微簇的均方根偏差,若均大于,将X作为新微簇,执行步骤S103;否则将X添加到最近的现有微簇,重复本步骤;
S103:提取每个微簇中所有电力数据点的相关时间值,判断每个微簇中最小相关时间值和阈值的大小,删除小于阈值的微簇;如果所有微簇的最小相关时间值均不小于阈值,则合并两个最近的微簇。
3.如权利要求1所述的流式大规模电力数据分析方法,其特征在于:
在利用K均值聚类法对离线电力数据流进行聚类前,对离线电力数据流进行预处理;
所述预处理进一步包括:数据过滤、数据填充和特征规范化;
数据过滤包括删除重复数据和丢失值数量超过阈值的数据、以及将划分到不同用电信息的数据合并;
数据填充为利用缺失值的两个相邻荷载值的平均值填充缺失值;
特征规范化包括对从离线电力数据流提取的用户特征值进行归一化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司;浙江华云信息科技有限公司,未经国网浙江省电力有限公司;浙江华云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910337786.9/1.html,转载请声明来源钻瓜专利网。





