[发明专利]数据预处理方法有效
申请号: | 201210581138.6 | 申请日: | 2012-12-27 |
公开(公告)号: | CN103902798B | 公开(公告)日: | 2018-02-13 |
发明(设计)人: | 蔡飞;向旗 | 申请(专利权)人: | 北京京东尚科信息技术有限公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 上海弼兴律师事务所31283 | 代理人: | 薛琦,王婧荷 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种数据预处理方法。该数据预处理方法包括以下步骤将数据点根据第一坐标值分为子点组;在各个子点组内,计算得到其中的各个数据点的第二坐标值之差,并通过计算得到各个数据点的局部离群点因子,利用离群点去噪将各个子点组内的异常的数据点移除;对离群点去噪后的所有数据点进行拟合并移除偏差较大的数据点,并输出去噪后数据组。本发明的数据预处理方法,通过对所有数据点的坐标值进行计算和分析,提高了数据预处理的准确性和效率,能够可靠地去除异常的数据点。 | ||
搜索关键词: | 数据 预处理 方法 | ||
【主权项】:
一种数据预处理方法,其特征在于,包括以下步骤:S101、选取多个数据点作为第一数据组,该第一数据组中的每个数据点包括一第一坐标值和一第二坐标值;S102、将该第一数据组中第一坐标值与其他所有数据点的第一坐标值都不同的数据点去除,作为一第二数据组;S103、将该第二数据组中第一坐标值相同的数据点作为子点组,将所有子点组设置为未计算状态,并设置一同组点数量阈值k;S104、判断是否还有未计算状态的子点组,在判断结果为是时执行步骤S105,在判断结果为否时执行步骤S112;S105、选定一未计算状态的子点组作为当前点组,判断该当前点组中的数据点数量是否大于等于该同组点数量阈值k,在判断结果为是时执行步骤S106,在判断结果为否时执行步骤S111;S106、该当前点组中的数据点的数量为n,该当前点组中的数据点m的第二坐标值为ym、其中m为满足1≤m≤n的整数,分别计算出数据点m与所有子点组中的其他所有数据点的第二坐标值之差、然后对第二坐标值之差从小到大排序后依次选取前k个第二坐标值之差对应的数据点作为数据点m的子数据点yml、其中l为满足1≤l≤k的整数、然后选取第k个第二坐标值之差作为数据点m的第二坐标值之差阈值cm、其中m遍历满足1≤m≤n的所有整数,其中,k表示该同组点数量阈值;S107、计算子数据点yml与数据点m的第二坐标值之差sml,子数据点yml的可达距离aml为aml=max(sml,cm),其中m遍历满足1≤m≤n的所有整数、l遍历满足1≤l≤k的所有整数;S108、根据第一公式计算数据点m的可达密度fm,其中m遍历满足1≤m≤n的所有整数;S109、根据第二公式计算数据点m的局部离群点因子Rm,其中m遍历满足1≤m≤n的所有整数;S110、判断数据点m的局部离群点因子Rm是否大于一离群点因子阈值R0,在判断结果为是的情况下将数据点m从该第二数据组中移除,其中m遍历满足1≤m≤n的所有整数;S111、将该当前点组的状态更改为已计算状态,然后执行步骤S104;S112、将第一坐标值作为横坐标、第二坐标值作为纵坐标,利用该步骤S104中判断结果为否时的该第二数据组中的所有数据点作曲线拟合得到一第一拟合曲线和一第一标准差;S113、选取该步骤S112中的该第二数据组中、与该第一拟合曲线的距离小于该第一标准差的三倍的所有数据点作为一去噪后数据组;S114、输出该去噪后数据组。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司,未经北京京东尚科信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210581138.6/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置