[发明专利]数据预处理方法有效

专利信息
申请号: 201210581138.6 申请日: 2012-12-27
公开(公告)号: CN103902798B 公开(公告)日: 2018-02-13
发明(设计)人: 蔡飞;向旗 申请(专利权)人: 北京京东尚科信息技术有限公司
主分类号: G06F19/00 分类号: G06F19/00
代理公司: 上海弼兴律师事务所31283 代理人: 薛琦,王婧荷
地址: 100195 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种数据预处理方法。该数据预处理方法包括以下步骤将数据点根据第一坐标值分为子点组;在各个子点组内,计算得到其中的各个数据点的第二坐标值之差,并通过计算得到各个数据点的局部离群点因子,利用离群点去噪将各个子点组内的异常的数据点移除;对离群点去噪后的所有数据点进行拟合并移除偏差较大的数据点,并输出去噪后数据组。本发明的数据预处理方法,通过对所有数据点的坐标值进行计算和分析,提高了数据预处理的准确性和效率,能够可靠地去除异常的数据点。
搜索关键词: 数据 预处理 方法
【主权项】:
一种数据预处理方法,其特征在于,包括以下步骤:S101、选取多个数据点作为第一数据组,该第一数据组中的每个数据点包括一第一坐标值和一第二坐标值;S102、将该第一数据组中第一坐标值与其他所有数据点的第一坐标值都不同的数据点去除,作为一第二数据组;S103、将该第二数据组中第一坐标值相同的数据点作为子点组,将所有子点组设置为未计算状态,并设置一同组点数量阈值k;S104、判断是否还有未计算状态的子点组,在判断结果为是时执行步骤S105,在判断结果为否时执行步骤S112;S105、选定一未计算状态的子点组作为当前点组,判断该当前点组中的数据点数量是否大于等于该同组点数量阈值k,在判断结果为是时执行步骤S106,在判断结果为否时执行步骤S111;S106、该当前点组中的数据点的数量为n,该当前点组中的数据点m的第二坐标值为ym、其中m为满足1≤m≤n的整数,分别计算出数据点m与所有子点组中的其他所有数据点的第二坐标值之差、然后对第二坐标值之差从小到大排序后依次选取前k个第二坐标值之差对应的数据点作为数据点m的子数据点yml、其中l为满足1≤l≤k的整数、然后选取第k个第二坐标值之差作为数据点m的第二坐标值之差阈值cm、其中m遍历满足1≤m≤n的所有整数,其中,k表示该同组点数量阈值;S107、计算子数据点yml与数据点m的第二坐标值之差sml,子数据点yml的可达距离aml为aml=max(sml,cm),其中m遍历满足1≤m≤n的所有整数、l遍历满足1≤l≤k的所有整数;S108、根据第一公式计算数据点m的可达密度fm,其中m遍历满足1≤m≤n的所有整数;S109、根据第二公式计算数据点m的局部离群点因子Rm,其中m遍历满足1≤m≤n的所有整数;S110、判断数据点m的局部离群点因子Rm是否大于一离群点因子阈值R0,在判断结果为是的情况下将数据点m从该第二数据组中移除,其中m遍历满足1≤m≤n的所有整数;S111、将该当前点组的状态更改为已计算状态,然后执行步骤S104;S112、将第一坐标值作为横坐标、第二坐标值作为纵坐标,利用该步骤S104中判断结果为否时的该第二数据组中的所有数据点作曲线拟合得到一第一拟合曲线和一第一标准差;S113、选取该步骤S112中的该第二数据组中、与该第一拟合曲线的距离小于该第一标准差的三倍的所有数据点作为一去噪后数据组;S114、输出该去噪后数据组。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司,未经北京京东尚科信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210581138.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top