[发明专利]一种甄别异常数据的方法及系统在审
申请号: | 201410446368.0 | 申请日: | 2014-09-04 |
公开(公告)号: | CN104216985A | 公开(公告)日: | 2014-12-17 |
发明(设计)人: | 钟聪;罗陆宁;戴斌;李涛;李炳要;张斌;黄龙茂;张志闻;沈斯伟;叶国雄;邰刚;刘启彬;林尧铭;黄令忠;刘旸;区彦黛;苏思敏;潘裕斌;侯玉;李嘉星 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/02;G06Q50/06 |
代理公司: | 深圳汇智容达专利商标事务所(普通合伙) 44238 | 代理人: | 潘中毅;熊贤卿 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 甄别 异常 数据 方法 系统 | ||
技术领域
本发明涉及电力系统营销稽查技术领域,尤其涉及一种甄别异常数据的方法及系统。
背景技术
电力系统营销稽查是依据有关政策、法规和规章制度,对营销制度建设与执行、营销行为规范和营销工作质量等进行内部专业稽查监督。
现有的常态化的营销稽查工作体系,基于统计学原理的科学抽样和评价模型,先将业务数据导入到统计软件,再通过通用统计软件的抽样模块进行抽样,最后将调查结果数据导入到统计软件进行统计推断,因此在不可收集或分析全部数据的情况下,通过收集随机样本,用较少的花费做出高精准度的推断,其缺点在于:一旦采样过程中存在任何偏差,分析结果就会出现较大误差,同时随机采样在用于多个子类别的采样时,随机采样结果的错误率会大大增加。
同时,当业务数据大量增加后,通过抽样调查的方法来找出异常数据的方法存在无法查找全部异常数据且查找效率低的问题,即无法在复杂的大数据中,迅速锁定异常数据。
在面对数据丰富、复杂的“大数据”时,与随机抽样分析、以最少的数据获得最多的信息的“小数据”时代不同,我们需收集、利用所有数据(至少是尽可能多的数据),即“样本=总体”,对全数据进行深度分析、挖掘,带来更高的精确性。
发明内容
本发明实施例的目的在于提供一种甄别异常数据的方法及系统,可以矫正采样过程中存在偏差,分析结果就会出现较大误差的问题,且可用于多个子类别采样,降低了采样结果的错误率,并可在复杂的大数据中,迅速锁定所有的异常数据。
为了解决上述技术问题,本发明实施例提供了一种甄别异常数据的方法,其在有多个样本数据集合上实现,所述方法包括:
获取第一样本数据集合以及所述第一样本数据集合中对应的多个业务类型;
在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据;
判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中;
如果是,则确定在相同业务类型情况下,存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中的筛选数据为异常数据。
其中,所述在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据的具体步骤包括:
在所述获取的第一样本数据集合中,根据所述第一样本数据集合对应的每一业务类型,设置每一业务类型对应的筛选规则所含的一个或多个筛选属性;
根据所述设置的每一业务类型对应的筛选规则所含的一个或多个筛选属性,得到所述第一样本数据集合中每一业务类型的筛选数据;其中,所述筛选数据为所述第一样本数据集合中每一业务类型通过对应的一个或多个筛选属性筛选而成的数据集合。
其中,所述判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据中的具体步骤包括:
获取所述第一样本数据集合中每一业务类型对应设置的筛选规则;
将所述获取的每一业务类型对应设置的筛选规则,分别设置在除所述第一样本数据集合之外的所述多个样本数据集合中,得到每一业务类型的对比数据集合;
判断在所述第一样本数据集合中得到的每一业务类型的筛选数据是否包含于相同业务类型对应的对比数据集合内。
其中,所述业务类型包括业扩报装、用电变更、抄核收、计量、用电检查、客户服务、线损管理。
本发明实施例还提供了一种甄别异常数据的系统,所述系统包括:获取单元、筛选单元、判断单元以及确定单元;其中,
所述获取单元,用于获取第一样本数据集合以及所述第一样本数据集合中对应的多个业务类型;
所述筛选单元,用于在所述获取的第一样本数据集合对应的每一业务类型中均设置筛选规则,并根据所述设置的筛选规则,得到所述第一样本数据集合中每一业务类型的筛选数据;
所述判断单元,用于判断所述得到的第一样本数据集合中每一业务类型的筛选数据是否均存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中;
所述确定单元,用于在相同业务类型情况下,存在于除所述第一样本数据集合之外的所述多个样本数据集合筛选的对比数据集合中的筛选数据均为异常数据。
其中,所述筛选单元包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410446368.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有折叠撑杆的医疗床
- 下一篇:呼吸内科肺部康复锻炼床
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置