[发明专利]一种基于Spark Streaming的流式大规模电力数据分析方法在审
| 申请号: | 201910337786.9 | 申请日: | 2019-04-25 |
| 公开(公告)号: | CN110047016A | 公开(公告)日: | 2019-07-23 |
| 发明(设计)人: | 黄建平;钱仲文;张旭东;夏洪涛;王文;杨少杰;王政;陈浩;张建松;沈思琪;正卓凡;毛宾一;吴敏彦;王亿;陈显辉;黄杰;王炎;陈耀军;沈峰;周明磊;纪德良 | 申请(专利权)人: | 国网浙江省电力有限公司;浙江华云信息科技有限公司 |
| 主分类号: | G06Q50/06 | 分类号: | G06Q50/06;G06F16/245;G06K9/62 |
| 代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
| 地址: | 310007*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于Spark Streaming的流式大规模电力数据分析方法,步骤如下:第一步,利用SS树进行在线电力数据流的相似性搜索,以对电力数据进行聚类;第二步,改进的Spark并行K均值聚类法对离线电力数据流进行聚类,K均值聚类的聚类中心和类数初始值采用第一步所获得的聚类中心。本发明方法在UCI数据集上的实验评估表明,本发明方法优于传统的K均值聚类算法。同时,通过对用户真实数据集的测试发现,本发明可以快速有效地对用户的电力数据进行聚类。 | ||
| 搜索关键词: | 聚类 电力数据分析 数据流 电力数据 聚类中心 流式 相似性搜索 实验评估 真实数据 传统的 数据集 有效地 离线 并行 测试 改进 发现 | ||
【主权项】:
1.一种基于Spark Streaming的流式大规模电力数据分析方法,其执行步骤如下:第一步,利用SS树进行在线电力数据流的相似性搜索,以对电力数据进行聚类;第二步,Spark并行K均值聚类法对离线电力数据流进行聚类;本步骤具体为:S201:MAP函数处理,具体为:以<Key,value>形式存储离线电力数据流,其中,Key是当前电力数据样本相对于输入数据文件起点的偏移量,value是当前电力数据样本的坐标值字符串;将当前电力数据样本各维的值解析出来,计算当前电力数据样本与各聚类中心的距离,聚类中心初始值为第一步所获得的聚类中心;找出最近聚类中心的编号Key',最后将当前电力数据样本以<Key',value'>形式存储,value'表示当前电力数据样本的坐标值字符串;S202:Combine函数处理,具体为:从MAP函数输出的坐标值字符串中依次解析每个电力数据样本的坐标值,对坐标值累加,并输出各电力数据样本对应的聚类中心编号、坐标累加值和样本总数;S203:Reduce函数处理,具体为:分析每个联合体处理的样本数和每个维度中各样本对应的坐标累加值,利用Reduce函数更新各电力数据样本所在聚类中心的坐标,之后继续采用MAP函数处理,直至聚类中心坐标收敛。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司;浙江华云信息科技有限公司,未经国网浙江省电力有限公司;浙江华云信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910337786.9/,转载请声明来源钻瓜专利网。





