[发明专利]数据预处理方法、装置、计算机设备及存储介质在审
申请号: | 201911348312.0 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111177217A | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 曾芳;邓德荣;王钧宇;房倩琦;王红松 | 申请(专利权)人: | 平安信托有限责任公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/21 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 黄章辉 |
地址: | 518000 广东省深圳市福田区福田街道益田路5033号平安金融中心27层(东北*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 预处理 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及分类模型领域,公开了一种数据预处理方法、装置、计算机设备及存储介质,其方法包括:判断天气样本数据的指定因子的数据类型;获取与数据类型匹配的第一数据填充方法,并根据第一数据填充方法对天气样本数据在指定因子上的缺失值进行第一次填充;在所有天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和历史数据计算替换值,将已填充的缺失值替换为替换值。本发明可提高数据挖掘方法的预测准确率。
技术领域
本发明涉及分类模型领域,尤其涉及一种数据预处理方法、装置、计算机设备及存储介质。
背景技术
在信息时代,信息的收集变得越来越便利。收集到的信息通过数据加工方法处理,生成人们需要的数据处理结果。数据挖掘作为数据加工方法的一种,在人们的日常生活得到普遍的应用。
在数据挖掘中,数据预处理是十分重要的环节,对数据处理结果的优劣产生巨大影响。而在数据预处理中,最常见的问题是数据质量差,数据质量差的普遍表现为数据缺失。
数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘来说,空值的存在,造成了以下影响:首先,系统丢失了大量的有用信息;第二,系统中所表现出的不确定性更加显著,系统中蕴涵的确定性成分更难把握;第三,包含空值的数据会使挖掘过程陷入混乱,导致不可靠的输出。
数据挖掘算法本身更致力于避免数据过分适合所建的模型,这一特性使得它难以通过自身的算法去处理好缺失的数据。缺失的数据需要通过数据填充方法进行推导、填充等,以减少数据挖掘算法与实际应用之间的差距。现有技术中,数据填充方法有很多种,如均值填充、插值法等。然而,这些数据填充方法在处理特定应用场景的数据时,常常会出现不匹配的情况。以均值填充为例,在用于天气数据的填充时,若用长时间段的天气数据在某个属性的均值去填充指定时间段在该属性的值,显然不够精确,且缺少逻辑相关性。
发明内容
基于此,有必要针对上述技术问题,提供一种数据预处理方法、装置、计算机设备及存储介质,以提高数据挖掘方法的预测准确率。
一种数据预处理方法,包括:
判断天气样本数据的指定因子的数据类型;
获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充;
在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;
判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;
若已填充的缺失值属于优选因子的天气样本数据存在历史数据,则根据第二数据填充方法和所述历史数据计算替换值,将所述已填充的缺失值替换为所述替换值。
一种数据预处理装置,包括:
类型判断模块,用于判断天气样本数据的指定因子的数据类型;
一次填充模块,用于获取与所述数据类型匹配的第一数据填充方法,并根据所述第一数据填充方法对所述天气样本数据在指定因子上的缺失值进行第一次填充;
筛选因子模块,用于在所有所述天气样本数据的缺失值填充完毕后,通过预设嵌入式特征选择算法对存在已填充缺失值的指定因子进行筛选,获得优选因子;
历史数据查询模块,用于判断已填充的缺失值属于优选因子的天气样本数据是否存在历史数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安信托有限责任公司,未经平安信托有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911348312.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置