[发明专利]一种基于梯度提升决策树的窃电检测方法在审
申请号: | 202011141946.1 | 申请日: | 2020-10-22 |
公开(公告)号: | CN112257784A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 邵振国;许良财;陈飞雄;张嫣;张承圣 | 申请(专利权)人: | 福州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q50/06 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈明鑫;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 梯度 提升 决策树 检测 方法 | ||
1.一种基于梯度提升决策树的窃电检测方法,其特征在于,将用户的历史日用电量作为样本特征,让单一树模型根据优化目标自动筛选最优分割特征和分割阈值,并根据迭代次数构建多个树模型组成强分类器,完成窃电检测模型训练,而后通过训练后的窃电检测模型实现窃电检测。
2.根据权利要求1所述的一种基于梯度提升决策树的窃电检测方法,其特征在于,若用户的历史日用电量存在缺失,则通过日用电量的缺失值填充方法,根据缺失电量前后数据的缺失情况填补缺失电量。
3.根据权利要求1所述的一种基于梯度提升决策树的窃电检测方法,其特征在于,窃电检测模型训练过程中,采用网格搜索和K折交叉验证实现窃电检测模型的参数寻优。
4.根据权利要求1所述的一种基于梯度提升决策树的窃电检测方法,其特征在于,该方法具体实现如下:
步骤S1、利用pandas库中read_csv操作读取原始数据集,其表示为(Name,X,Y),其中,Name表示用户名,由于Name不参与窃电检测模型训练,因此利用pandas库提供的drop操作,删除该列特征;X代表用电特征,其数值即为用户用电数据;Y代表标签,共有两类,1对应窃电用户,0对应正常用户;而后,分别划分用电特征和标签,并存储为变量名pd_features和pd_labels;
步骤S2、对pd_features进行缺失值填充;填充规则为:(1)若缺失值前后均有数据,则以缺失值前后均值填充;(2)若缺失值的前一天有数据,而缺失值的后一天没有数据,则以缺失值前一天的数据填充该缺失值;(3)若缺失值的前一天没有数据,而缺失值的后一天有数据,则以0值填充该缺失值;
步骤S3、划分训练集和测试集,训练集用于寻找最优参数,测试集用于最终检验;利用features=pd_features.values和labels=pd_labels.values分别将pd类型的特征和标签转化为数组类型,并通过数组提供的reshape(-1,1)操作,将labels的行数变为和features的行数一样,再通过numpy库提供的concatenate操作,将features和labels拼接,形成新的数组new_data,而后通过numpy库提供的random.shuffle操作,随机打乱数组的行顺序,使得正常样本和窃电样本基于各自比例均匀分布;最后通过数组的切片操作,取前80%的样本作为训练集train_data,后20%的样本作为测试集test_data;
步骤S4、通过网格搜索和K折交叉验证寻找窃电检测模型最优参数;对于训练集train_data,通过pandas库提供的DataFrame操作,将数组train_data转化为DataFrame类型的数据,存储为变量名pd_train_data;而后从sklearn库中导入KFold函数实现K折交叉验证,寻找窃电检测模型最优参数;
步骤S5、训练基于梯度提升决策树的窃电检测模型model;根据步骤S4寻找的最优参数,调用sklearn库中的GradientBoostingClassifier,并设置相应参数,完成窃电检测模型构建;然后划分训练集train_data的特征和标签分别为train_features、train_labels,并通过model.fit进行拟合,完成窃电检测模型的训练;
步骤S6、测试模型;划分测试集test_data的特征和标签分别为test_features、test_labels,并通过model.predict(test_features),输出预测标签pred;从sklearn库中的metrics模块调用f1_score,并应用于真实标签test_labels和预测标签pred,输出F1得分作为最终评价结果。
5.根据权利要求4所述的一种基于梯度提升决策树的窃电检测方法,其特征在于,步骤S2中,缺失值填充公式具体如下:
其中,NAN表示缺失数据集合,xi、xi-1、xi+1分别表示第i天的日用电量、第i-1天的日用电量、第i+1天的日用电量,表示第i天填充的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011141946.1/1.html,转载请声明来源钻瓜专利网。