[发明专利]一种基于场景的KPI及多维度网络数据清洗方法有效
申请号: | 201810360670.2 | 申请日: | 2018-04-20 |
公开(公告)号: | CN108563770B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 程崇虎;陆怡琪;朱颖;田梦倩;范山岗;杨洁;熊健;桂冠 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/28 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 场景 kpi 多维 网络 数据 清洗 方法 | ||
本发明公开了一种基于场景的KPI及多维度网络数据清洗方法,首先将采集的数据导入数据结构中;对导入的数据格式进行规范化,将资源数据按场景划分,同一个场景的资源数据合并得到资源子数据,对数据值产生的冲突进行检测和处理;对多个数据源或文件的数据进行关联,对数据的冗余和模式不匹配的情况进行判断和处理;对不能直接进行数据挖掘的数据进行处理;查看各属性的缺失率,根据缺失率决定处理方式,包括丢弃和采用K‑NN回归方法填补;在数据存储模块中对原始数据进行备份并存储清洗后的数据;本发明实现了数据的有效清洗,解决数据的复杂程度高导致的无法对数据进行深入挖掘的技术问题。
技术领域
本发明属于数据清洗领域,具体涉及一种基于场景的KPI及多维度网络数据清洗方法。
背景技术
移动通信网络运营管理中需要关注一些关键绩效指标(Key PerformanceIndicators,简称KPI),如掉话率、呼损等等,除了日常维护之外,运营商希望掌握影响KPI的因素,获得KPI和网络之间的关联,便于后期网优任务分配及保障。
对KPI和网络之间的关联程度进行深入的分析挖掘之前,需要对数据进行有效的清洗,降低数据的复杂程度。
发明内容
本发明的目的在于优化网络数据,提出一种基于场景的KPI及多维度网络数据清洗方法,实现数据的有效清洗,解决数据的复杂程度高导致的无法对数据进行深入挖掘的技术问题。
本发明采用如下技术方案,一种基于场景的KPI及多维度网络数据清洗方法,具体步骤如下:
1)将采集到的原始数据分为小区基本维度数据和问题小区清单,其中,小区基本维度数据为直接采集得到的小区数据,即没有经过KPI指标门限判别的数据;问题小区清单为某一项KPI出现明显劣化的小区数据,即经过KPI指标门限判别的数据;利用数据导入模块将数据导入Pandas包中的DataFrame的数据结构中;
2)在数据处理模块中对导入的数据格式进行规范化,将小区基本维度数据中的资源数据按场景划分,同一个场景的资源数据调用concat函数合并,得到资源子数据,对合并过程中数据值产生的冲突进行检测和处理;
3)在数据清洗模块中对多个数据源或文件的数据进行关联,即选择关联的主关键字,将按场景划分后的资源子数据与其它小区基本维度数据根据主关键字合并,并在合并中统一数据模式;合并的过程中对数据的冗余和模式不匹配的情况进行判断,删除冗余属性,统一属性模式的表述方式;对不能直接进行数据挖掘的数据只保留数值或者用数值替代;
4)在缺失处理模块中查看各属性的缺失率,初步填充缺失值,然后根据缺失率决定处理方式,对缺失率大于50%的属性、冗余属性或与分析主题无关的属性丢弃处理,对其他属性的缺失值采用K-NN回归方法填补;
5)在数据存储模块中对原始数据进行备份并存储清洗后的数据。
优选地,所述步骤1)中小区基本维度数据包括:资源数据、性能数据、工参数据、邻区数据和测量数据;问题小区清单包括:长期演进LTE(Long Term Evolution)高负荷小区、第四代移动通信技术4G零流量小区、长期演进LTE(Long Term Evolution)高流量问题严重小区、高清语音volte(Voice over LTE)高掉话小区、低测量报告MR(Measurement Report)覆盖率小区和高清语音volte(Voice over LTE)高丢包率小区。
优选地,所述步骤1)中调用Python的Pandas包将数据存入的DataFrame的数据结构。
优选地,所述步骤2)中对导入的数据格式进行规范化具体为对数据中存在的中英文和特殊字符修改格式,统一改为小写及半角格式以及去除空格。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810360670.2/2.html,转载请声明来源钻瓜专利网。