[发明专利]数据处理方法、装置、网络设备及存储介质在审
申请号: | 202110678862.X | 申请日: | 2021-06-18 |
公开(公告)号: | CN113420804A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 郑忠斌;王朝栋;彭新 | 申请(专利权)人: | 工业互联网创新中心(上海)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海晨皓知识产权代理事务所(普通合伙) 31260 | 代理人: | 成丽杰 |
地址: | 201306 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 网络设备 存储 介质 | ||
本发明实施方式涉及通信技术领域,公开了一种数据处理方法,包括:获取目标数据集,采用最短分叉树粗糙聚类算法对目标数据集进行粗糙聚类,根据粗糙聚类结果形成多个最短分叉树;采用基于粗糙聚类邻域信息系统的阈值剪枝算法对最短分叉树进行剪枝与合并,得到精简后的最短分叉树;采用均衡融合数据局部多特征因子的异常值检测算法计算精简后的最短分叉树中数据对象的异常度,并根据异常度确定并剔除目标数据集中的异常数据值。本发明实施方式还公开了一种数据处理装置、网络设备及存储介质。本发明实施方式公开的数据处理方法、装置、网络设备及存储介质,可以剔除原始数据中的异常数据值,提高数据分析的效率和决策的准确性。
技术领域
本发明涉及通信技术领域,特别涉及一种数据处理方法、装置、网络设备及存储介质。
背景技术
企业在进行决策时,如果先对数据进行分析,则可以使决策更加科学和准确。然而,一方面,由于信息技术的发展,企业产生的数据越来越多,企业在进行决策时如果对数据进行分析往往需要面对大量的数据;另一方面,目前大多数企业还是依赖以经验或传统的数据分析手段,运用这些数据分析手段对大量的数据进行分析来获取其潜在规律或变化时,分析的效率较低,还会因为存在主观方面的差异而使得分析结果不够准确,影响决策的准确性。特别地,若原始数据中存在异常数据值,在进行数据分析时未剔除异常数据值,则可能会使数据分析出现不可逆的偏差,严重影响分析结果的准确性,导致决策出现重大失误。
发明内容
本发明实施方式的目的在于提供一种数据处理方法、装置、网络设备及存储介质,可以剔除原始数据中的异常数据值,提高数据分析的效率和决策的准确性。
为解决上述技术问题,本发明的实施方式提供了一种数据处理方法,包括:获取目标数据集,采用最短分叉树粗糙聚类算法对目标数据集进行粗糙聚类,根据粗糙聚类结果形成多个最短分叉树;采用基于粗糙聚类邻域信息系统的阈值剪枝算法对最短分叉树进行剪枝与合并,得到精简后的最短分叉树;采用均衡融合数据局部多特征因子的异常值检测算法计算精简后的最短分叉树中数据对象的异常度,并根据异常度确定并剔除目标数据集中的异常数据值。
本发明的实施方式还提供了一种数据处理装置,包括:聚类模块,用于获取目标数据集,采用最短分叉树粗糙聚类算法对目标数据集进行粗糙聚类,根据粗糙聚类结果形成多个最短分叉树;处理模块,用于采用基于粗糙聚类邻域信息系统的阈值剪枝算法对最短分叉树进行剪枝与合并,得到精简后的最短分叉树;确定模块,用于采用均衡融合数据局部多特征因子的异常值检测算法计算精简后的最短分叉树中数据对象的异常度,并根据异常度确定并剔除目标数据集中的异常数据值。
本发明的实施方式还提供了一种网络设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述的数据处理方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述的数据处理方法。
本发明实施方式相对于相关技术而言,通过采用最短分叉树粗糙聚类算法对目标数据集进行粗糙聚类形成多个最短分叉树,然后采用粗糙聚类邻域信息系统的阈值剪枝算法对最短分叉树进行剪枝与合并,再利用均衡融合数据局部多特征因子的异常值检测算法计算最短分叉树中数据对象的异常度,根据数据对象的异常度确定并剔除异常数据值。由于是采用算法对目标数据集的数据进行自动分析,因此可以提高数据分析的效率;同时,由于均衡融合数据局部多特征因子的异常值检测算法,对标准局部异常因子引入局部相对接近度来替换数据对象的局部可及密度,将邻域离散程度与距离计算比率调整为适合粗糙聚类的计算方式,引入变异系数表征类内离散程度,因此可以准确定量分析数据对象的异常度,从而根据异常度确定并剔除原始数据(即目标数据集)中的异常数据值,提高分析结果以及决策的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于工业互联网创新中心(上海)有限公司,未经工业互联网创新中心(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110678862.X/2.html,转载请声明来源钻瓜专利网。