[发明专利]一种基于场景的KPI及多维度网络数据清洗方法有效
申请号: | 201810360670.2 | 申请日: | 2018-04-20 |
公开(公告)号: | CN108563770B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 程崇虎;陆怡琪;朱颖;田梦倩;范山岗;杨洁;熊健;桂冠 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/28 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于场景的KPI及多维度网络数据清洗方法,首先将采集的数据导入数据结构中;对导入的数据格式进行规范化,将资源数据按场景划分,同一个场景的资源数据合并得到资源子数据,对数据值产生的冲突进行检测和处理;对多个数据源或文件的数据进行关联,对数据的冗余和模式不匹配的情况进行判断和处理;对不能直接进行数据挖掘的数据进行处理;查看各属性的缺失率,根据缺失率决定处理方式,包括丢弃和采用K‑NN回归方法填补;在数据存储模块中对原始数据进行备份并存储清洗后的数据;本发明实现了数据的有效清洗,解决数据的复杂程度高导致的无法对数据进行深入挖掘的技术问题。 | ||
搜索关键词: | 一种 基于 场景 kpi 多维 网络 数据 清洗 方法 | ||
【主权项】:
1.一种基于场景的KPI及多维度网络数据清洗方法,其特征在于,包括以下步骤:1)将采集到的原始数据分为小区基本维度数据和问题小区清单,其中,小区基本维度数据为直接采集得到的小区数据,即没有经过KPI指标门限判别的数据;问题小区清单为某一项KPI出现明显劣化的小区数据,即经过KPI指标门限判别的数据;利用数据导入模块将数据导入Pandas包中的DataFrame的数据结构中;2)在数据处理模块中对导入的数据格式进行规范化,将小区基本维度数据中的资源数据按场景划分,同一个场景的资源数据调用concat函数合并,得到资源子数据,对合并过程中数据值产生的冲突进行检测和处理;3)在数据清洗模块中对多个数据源或文件的数据进行关联,即选择关联的主关键字,将按场景划分后的资源子数据与其它小区基本维度数据根据主关键字合并,并在合并中统一数据模式;合并的过程中对数据的冗余和模式不匹配的情况进行判断,删除冗余属性,统一属性模式的表述方式;对不能直接进行数据挖掘的数据只保留数值或者用数值替代;4)在缺失处理模块中查看各属性的缺失率,初步填充缺失值,然后根据缺失率决定处理方式,对缺失率大于50%的属性、冗余属性或与分析主题无关的属性丢弃处理,对其他属性的缺失值采用K‑NN回归方法填补;5)在数据存储模块中对原始数据进行备份并存储清洗后的数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810360670.2/,转载请声明来源钻瓜专利网。