[发明专利]一种基于多种算法融合的缺失值插补方法在审
申请号: | 201611123384.1 | 申请日: | 2016-12-08 |
公开(公告)号: | CN108197080A | 公开(公告)日: | 2018-06-22 |
发明(设计)人: | 陶波;许飞月;陈乐焱;李青海 | 申请(专利权)人: | 广东精点数据科技股份有限公司 |
主分类号: | G06F17/18 | 分类号: | G06F17/18 |
代理公司: | 北京隆源天恒知识产权代理事务所(普通合伙) 11473 | 代理人: | 闫冬 |
地址: | 510630 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 插补 神经网络模型 算法融合 测试集 数据组 样本集 训练神经网络 层次聚类 缺失数据 训练集 有效地 构建 记录 主观 预测 | ||
本发明提供一种基于多种算法融合的缺失值插补方法,其包括:步骤S1:对所有数据进行层次聚类;步骤S2:针对含有缺失值的类,根据是否为有缺失值的记录,将记录分为缺失数据组和完全数据组;步骤S3:将完全数据组中的数据随机分成训练集和测试集,用n种现有的插补方法预测测试集,构建一定数量的样本集;步骤S4:运用得到的样本集训练神经网络得出神经网络模型;步骤S5:运用神经网络模型对含有缺失值的类进行插补,得出最后的插补值;步骤S6:判断是否存在还有缺失值的类,如果是,则执行步骤S2,如果否,则执行步骤S7;步骤S7:结束。本发明运用现有多种方法得出的缺失值,解决人为主观的选择缺失值插补方法的不足,比较客观有效地插补缺失值。
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于多种算法融合的缺失值插补方法。
背景技术
在许多需要收集数据的研究中,数据缺失是很常见的,缺失原因多种多样,主要有机械原因和人为原因。前者是由于机械原因导致的数据的收集或者保存失败,如数据存储的失败,存储器损坏等;后者是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,如在问卷调查中被访人员拒绝透露有关问题的答案,或者回答的问题是无效的,录入人员失误漏录了数据。在调查前,做好规划,对一些重要的数据注重避免数据缺失是极有必要的,但对于已经缺失的数据,为了充分利用进行研究,寻找适合的插补方法对缺失值进行插补显得尤为重要。现阶段,已经出现的缺失值的插补方法有:均值替换法、热卡填充法、回归替换法、多重替代法等。在对数据的分布和缺失情况没有较为全面的了解时,无法得知哪种方法对缺失值的插补效果较好,此时,人们往往根据以往经验或者随意在众多的插补方法中选择一种进行插补,对缺失值插补的合理性难以掌控,尤其是对于一些较为关键的变量,用不同的插补方法得出的插补值可能相差甚远,进而得到的结果和研究结论可能会完全不同。由此,运用一种合理的插补方法是至关重要的,若是将各种插补方法的融合起来,进而得到插补值,是一种不错的想法。
鉴于上述缺陷,本发明创作者经过长时间的研究和实践终于获得了本发明。
发明内容
为解决上述技术缺陷,本发明采用的技术方案在于,提供了一种基于多种算法融合的缺失值插补方法,该方法包括以下步骤:
步骤S1:对所有数据进行层次聚类;
步骤S2:针对含有缺失值的类,根据是否为有缺失值的记录,将记录分为缺失数据组和完全数据组;
步骤S3:将所述完全数据组中的数据随机分成训练集和测试集,用n种现有的插补方法预测测试集,构建一定数量的样本集;
步骤S4:运用得到的样本集训练神经网络得出神经网络模型;
步骤S5:运用所述神经网络模型对含有缺失值的类进行插补,得出最后的插补值;
步骤S6:判断是否存在还有缺失值的类,如果是,则执行步骤S2,如果否,则执行步骤S7;
步骤S7:结束。
较佳的,所述步骤S3具体包括以下步骤:
步骤S31:在所述完全数据组中随机挑选一定数量记录作为训练集,挑选一定数量的记录作为测试集,其中,测试集的数据条数小于训练集的数据条数;
步骤S32:运用n种现有插补方法结合训练集得出n个模型,用模型预测测试集,得出测试集的预测值,将不同方法得出的预测值和真实值记为一个样本;
步骤S33:重复步骤S32,得出一定数量的样本集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东精点数据科技股份有限公司,未经广东精点数据科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611123384.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种改进的对缺失值插补的算法
- 下一篇:一种航班延误险的数据精算模型建立方法