[发明专利]一种基于多种算法融合的缺失值插补方法在审

申请号：	201611123384.1	申请日：	2016-12-08
公开（公告）号：	CN108197080A	公开（公告）日：	2018-06-22
发明（设计）人：	陶波;许飞月;陈乐焱;李青海	申请（专利权）人：	广东精点数据科技股份有限公司
主分类号：	G06F17/18	分类号：	G06F17/18
代理公司：	北京隆源天恒知识产权代理事务所(普通合伙) 11473	代理人：	闫冬
地址：	510630 广东省广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	插补神经网络模型算法融合测试集数据组样本集训练神经网络层次聚类缺失数据训练集有效地构建记录主观预测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于多种算法融合的缺失值插补方法，其包括：步骤S1：对所有数据进行层次聚类；步骤S2：针对含有缺失值的类，根据是否为有缺失值的记录，将记录分为缺失数据组和完全数据组；步骤S3：将完全数据组中的数据随机分成训练集和测试集，用n种现有的插补方法预测测试集，构建一定数量的样本集；步骤S4：运用得到的样本集训练神经网络得出神经网络模型；步骤S5：运用神经网络模型对含有缺失值的类进行插补，得出最后的插补值；步骤S6：判断是否存在还有缺失值的类，如果是，则执行步骤S2，如果否，则执行步骤S7；步骤S7：结束。本发明运用现有多种方法得出的缺失值，解决人为主观的选择缺失值插补方法的不足，比较客观有效地插补缺失值。

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于多种算法融合的缺失值插补方法。

背景技术

在许多需要收集数据的研究中，数据缺失是很常见的，缺失原因多种多样，主要有机械原因和人为原因。前者是由于机械原因导致的数据的收集或者保存失败，如数据存储的失败，存储器损坏等；后者是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失，如在问卷调查中被访人员拒绝透露有关问题的答案，或者回答的问题是无效的，录入人员失误漏录了数据。在调查前，做好规划，对一些重要的数据注重避免数据缺失是极有必要的，但对于已经缺失的数据，为了充分利用进行研究，寻找适合的插补方法对缺失值进行插补显得尤为重要。现阶段，已经出现的缺失值的插补方法有：均值替换法、热卡填充法、回归替换法、多重替代法等。在对数据的分布和缺失情况没有较为全面的了解时，无法得知哪种方法对缺失值的插补效果较好，此时，人们往往根据以往经验或者随意在众多的插补方法中选择一种进行插补，对缺失值插补的合理性难以掌控，尤其是对于一些较为关键的变量，用不同的插补方法得出的插补值可能相差甚远，进而得到的结果和研究结论可能会完全不同。由此，运用一种合理的插补方法是至关重要的，若是将各种插补方法的融合起来，进而得到插补值，是一种不错的想法。

鉴于上述缺陷，本发明创作者经过长时间的研究和实践终于获得了本发明。

发明内容

为解决上述技术缺陷，本发明采用的技术方案在于，提供了一种基于多种算法融合的缺失值插补方法，该方法包括以下步骤：

步骤S1：对所有数据进行层次聚类；

步骤S2：针对含有缺失值的类，根据是否为有缺失值的记录，将记录分为缺失数据组和完全数据组；

步骤S3：将所述完全数据组中的数据随机分成训练集和测试集，用n种现有的插补方法预测测试集，构建一定数量的样本集；

步骤S4：运用得到的样本集训练神经网络得出神经网络模型；

步骤S5：运用所述神经网络模型对含有缺失值的类进行插补，得出最后的插补值；

步骤S6：判断是否存在还有缺失值的类，如果是，则执行步骤S2，如果否，则执行步骤S7；

步骤S7：结束。

较佳的，所述步骤S3具体包括以下步骤：

步骤S31：在所述完全数据组中随机挑选一定数量记录作为训练集，挑选一定数量的记录作为测试集，其中，测试集的数据条数小于训练集的数据条数；