[发明专利]一种基于梯度提升决策树的窃电检测方法在审
申请号: | 202011141946.1 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112257784A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 邵振国;许良财;陈飞雄;张嫣;张承圣 | 申请(专利权)人: | 福州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q50/06 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈明鑫;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 梯度 提升 决策树 检测 方法 | ||
本发明涉及一种基于梯度提升决策树的窃电检测方法。将用户的历史日用电量作为样本特征,让单一树模型根据优化目标自动筛选最优分割特征和分割阈值,并根据迭代次数构建多个树模型组成强分类器,完成窃电检测模型训练,而后通过训练后的窃电检测模型实现窃电检测。本发明能够实现正常用户和窃电用户的分类。
技术领域
本发明涉及一种基于梯度提升决策树的窃电检测方法。
背景技术
窃电行为不仅会给电网公司带来较大的经济损失,而且会影响电网的安全稳定运行,因此,研究高准确率的窃电检测方法具有十分重要的意义。
传统的窃电检测主要依靠技术人员定期巡检或无人机拍摄等方式监测电表不仅效率低下,而且及时性差。随着硬件反窃电技术日趋完善,现在电表的安全性已极大提升,但在上传用户电表计量数据的通信环节仍存在篡改数据的可能。
现有的基于数据挖掘的窃电检测方法主要有三类:基于回归、基于聚类、基于分类。
基于回归的窃电检测方法主要结合负荷预测算法,利用历史用电数据训练回归模型,并预测未来一段时期的用电数据,此后通过实际用电数据和预测用电数据之间的偏差判断用户是否异常用电,该类方法受用户用电随机性影响较大。
基于聚类的窃电检测方法属于无监督学习,通过计算样本之间的距离将样本聚为多个类别,并根据样本与类簇之间的距离判断样本是否异常。该类方法不需要带有标签的样本,在样本标签缺乏的情况下,适用性较强。但聚类方法的参数设置主观性强,算法复杂程度高,且用户用电行为多样化,可能存在多个少数类群,使得基于聚类的窃电检测方法难以准确识别窃电用户。
窃电检测本质上是一个二元分类问题,但现有的基于分类的窃电检测方法大多没有考虑用电数据的缺失问题,对用电数据填充较敏感,会使检测结果出现较大差异,而电网中的用电数据缺失问题仍然比较严重,因此,现有方法难以应用于电网中的用户窃电检测。此外,一些基于分类的窃电检测方法受样本类别不平衡影响大,检测精度难以达到较高水平。
为了从数据层面鉴别窃电用户,本发明提出一种基于梯度提升决策树的窃电检测方法。该方法以树模型作为基分类器,基于所有样本特征和标签的对应关系,选择最优分割特征和分割阈值,并形成样本划分规则。此后通过集成学习的方式,将多个单一树模型依次迭代,构成强分类器实现正常用户和窃电用户的分类。
发明内容
本发明的目的在于提供一种基于梯度提升决策树的窃电检测方法,能够实现正常用户和窃电用户的分类。
为实现上述目的,本发明的技术方案是:一种基于梯度提升决策树的窃电检测方法,将用户的历史日用电量作为样本特征,让单一树模型根据优化目标自动筛选最优分割特征和分割阈值,并根据迭代次数构建多个树模型组成强分类器,完成窃电检测模型训练,而后通过训练后的窃电检测模型实现窃电检测。
在本发明一实施例中,若用户的历史日用电量存在缺失,则通过日用电量的缺失值填充方法,根据缺失电量前后数据的缺失情况填补缺失电量。
在本发明一实施例中,窃电检测模型训练过程中,采用网格搜索和K折交叉验证实现窃电检测模型的参数寻优。
在本发明一实施例中,该方法具体实现如下:
步骤S1、利用pandas库中read_csv操作读取原始数据集,其表示为(Name,X,Y),其中,Name表示用户名,由于Name不参与窃电检测模型训练,因此利用pandas库提供的drop操作,删除该列特征;X代表用电特征,其数值即为用户用电数据;Y代表标签,共有两类,1对应窃电用户,0对应正常用户;而后,分别划分用电特征和标签,并存储为变量名pd_features和pd_labels;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011141946.1/2.html,转载请声明来源钻瓜专利网。