[发明专利]一种基于海量计量数据的电力客户在线分群方法无效
申请号: | 201210484712.6 | 申请日: | 2012-11-23 |
公开(公告)号: | CN102982489A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 刘涛;杨劲锋;阙华坤;肖勇;孙卫明;陈启冠;王和栋;张良均 | 申请(专利权)人: | 广东电网公司电力科学研究院 |
主分类号: | G06Q50/06 | 分类号: | G06Q50/06;G06F17/30 |
代理公司: | 广州知友专利商标代理有限公司 44104 | 代理人: | 周克佑 |
地址: | 510080 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 海量 计量 数据 电力 客户 在线 分群 方法 | ||
1.一种基于海量计量数据的电力客户在线分群方法,包括以下步骤:
步骤1:对电力用户历史样本数据进行抽取;
步骤2:对抽取的样本数据进行预处理;
步骤3:对电力用户历史样本数据进行初始客户分群;
步骤4:从计量自动化系统中实时抽取在线电力用户信息及反映在线电力用户用电特征的实时用电数据,并且进行预处理;
步骤5:获取预处理后的在线电力用户数据,在步骤3已生成的客户分群的基础上,利用已经生成的聚类中心点,对新增的在线电力用户数据进行在线实时分群。
2.根据权利要求1所述的基于海量计量数据的电力客户在线分群方法,其特征在于:该方法还包括所述步骤1包括步骤6:对步骤5获得的在线实时分群性能进行评价。
3.根据权利要求1或2所述的基于海量计量数据的电力客户在线分群方法,其特征在于:所述步骤1中的电力用户历史样本数据进包括客户档案信息、客户电量信息和客户负荷信息;
所述的步骤2中的数据预处理包括缺失值处理、异常值处理、分群数据计算处理和数据归一化处理;
S2.1:缺失值处理
在原始计量数据,发现存在缺失的现象,为确保建模数据的有效性,需要对这些缺失数据进行补齐处理;
S2.2:异常值处理
对超出指标阀值范围的数据,通过同类型日数据结合插值算法进行修正处理;
S2.3:计算数据分群指标
考虑负荷波动基本能表征客户的用电特征,故基于电量及负荷指标计算出一定时间段内反映负荷变动情况的指标:
负荷率=平均负荷/最大负荷
峰总比=峰电量/总电量
平总比=平电量/总电量
谷总比=谷电量/总电量
其中:
最大负荷=Mαx(Li),i=1,2,...,96,Li表示每隔15分钟的用电负荷采样值;峰、谷、平电量分别为城市用电高峰时间段、平峰时间段和谷峰时间段的用电量;
高峰时间段指的是用电量的高峰,用电量相对集中,低谷时间段则相反;高峰时间段8小时:9:00~12:00,17:00~22:00;平段时间段7小时:8:00~9:00,12:00~17:00,22:00~23:00;低谷时间段9小时:23:00~次日8:00;
S2.4:数据归一化
为了消除分群指标量纲之间的差异性,对数据进行归一化处理,主要方法可以采用最小最大值法,零均值法和小数定标法;
所述的步骤3包含以下子步骤:
S3.1:样本数据标准化
数据标准化指把经过预处理后的样本数据转成向量数据,向量数据包括大客户的负荷率、峰总比、平总比和谷总比;
其中d1为负荷率,d2为峰总比,d3为平总比,d4为谷总比;
向量数据存放到分布式文件系统中,在标准化的过程中,会通过MapReduce调度器,根据样本数据文件大小进行拆分成一些数据块向量数据angang比和谷总比;根据数据块的数量启动Map任务并行执行标准化转换工作;
S3.2:分布式存储
分布式文件系统采用master/slave架构;一个HDFS集群是由一个Namenode和一定数目的Datanodes组成;Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问;集群中的Datanode是一个节点一个,负责管理它所在节点上的存储;HDFS开放了文件系统的名字空间,用户能够以文件的形式在上面存储数据;从内部看,一个文件其实被分成一个或多个数据块,这些块存储在一组Datanode上;Namenode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录;它也负责确定数据块到具体Datanode节点的映射;Datanode负责处理文件系统客户端的读写请求;在Namenode的统一调度下进行数据块的创建、删除和复制;
S3.3:聚类中心点初始化
客户分群主要采取可并分布式计算的聚类算法进行分群,下面以K-means算法为例进行说明;
聚类算法首先生成空聚类并编号,从所有的样本数据集中随机选择K个对象作为K-means聚类的中心点,将聚类中心点作为各个聚类的代表;
S3.4:迭代计算最优聚类中心点
通过迭代方法,不断计算新的聚类中心点,直至所有样本数据均与中心点之间的距离最小;
S3.5:输出分群数据
在上一个步骤中,通过不断地迭代计算得出了聚类中心点,同时也得出了每个样本数据所属的聚类中心,可直接输出即可;
步骤4中,历史样本数据初始化分群后,根据实际应用需要,定期从计量自动化系统中抽取客户信息及反映客户用电特征的实时用电数据,实时用电数据采用步骤2所述方法进行预处理;
所述的步骤5包含以下子步骤:
在步骤3已生成的客户分群的基础上,利用已经生成的K个聚类中心点,采用Canopy算法对新增的数据进行在线实时分群,具体步骤如下:
S5.1:根据已有分群的聚类中心点,生成K个Canopy聚类,每个聚类的中心初值即为现有分群的聚类中心点;
S5.2:指定合适的T1和T2参数,把所有的新数据放在Canopy的聚类中进行聚类计算;
Canopy算法首先会要求输入两个阀值T1和T2,T1>T2;算法有一个集群叫Canopy的集合Set,初始时它是空的;然后会将读取到的第一个点作为集合中的一个Canopy,接着读取下一个点,计算该点与集合中的每个Canopy的距离,若这个距离小于T1,则这个点会分配给这个Canopy,而当这个距离小于T2时这个点不能作为一个新的Canopy而放到集合中;
S5.3:根据Canopy算法计算新的样本数据到每个中心点的距离D,当D<T1时,就把该样本数据放到相应的聚类中,当D<T2时则把该样本数据从新的样本集中删除,如果D1-DK都>T1,则该点会本生成为一个新的中心点,从而形成新的用户群聚类;循环计算直到所有的新样本数据集为空为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网公司电力科学研究院,未经广东电网公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210484712.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种低电压LED驱动电源
- 下一篇:银行到账通知单数据的处理方法及其系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置