[发明专利]一种大数据分析中缺失数据混合多重插值的装置和方法在审
申请号: | 201710385780.X | 申请日: | 2017-05-26 |
公开(公告)号: | CN107273445A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 林劼;钟德建;李年华;马骏;周正斌 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 成都金英专利代理事务所(普通合伙)51218 | 代理人: | 袁英 |
地址: | 610041 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 分析 缺失 混合 多重 装置 方法 | ||
技术领域
本发明涉及一种混合多重插值装置和方法,具体涉及一种大数据分析中缺失数据混合多重插值的装置和方法。
背景技术
目前,人们进入一个全新的大数据时代,大数据在越来越多的领域中都有着重要的影响,同时对数据的质量要求也越来越高。由于数据量级不断的增大,数据质量和数据可用性问题也随着不断增加,例如数据缺失、数据冗余等,数据量越大,数据质量问题也就越严重,从而对大数据的应用和分析将带来影响和误差。如何解决数据缺失,剔除掉缺失数据对大数据分析的影响,这是保证大数据分析下原始数据质量至关重要的问题。
大数据中不可忽视的问题就是存在数据不完整的情况,这类数据称之为缺失数据。缺失数据存在三种缺失机制,完全随机缺失,随机缺失和非随机缺失。完全随机缺失表示数据的丢失是随机性的,它的缺失与数据集中任何属性变量都无关;然而随机缺失表示数据的缺失与其他属性变量有一定联系,与其自身的属性变量没有关系;非随机缺失表示数据的缺失只有自身的属性变量存在联系。除此之外,数据本身的缺失情况也分为单一缺失和任意缺失两种模式,其中单一缺失表示数据的一个属性其值缺失以后,该属性随后的所有属性的直接都将缺失,而任意缺失就是完全意义上的值随意缺失。因此,通过分析大数据下缺失数据的机制以及模式,需要对缺失数据进行处理,以保证减少大数据下各种研究应用受到原始数据质量问题影响。
为了减少解决数据缺失,常常采用列表删除法或数据填补法。列表删除法虽然简便但是可能造成数据信息量的丢失,因此数据填补法更加常用。在数据填补法中,平均插补、虚拟变量法、单一回归,多重插补、马尔科夫链插补、深度置信网络插补、数据驱动插补等。由于大数据下缺失数据的复杂性以及数量巨大化,如果用传统的平均插补、单一回归这类插补方式,希望通过建模预估出一个缺失值从而进行插补,这将可能降低缺失数据的可变性并且单一的值可能存在过度拟合以及具有偏差的估计。多重插补的出现,解决了这一问题,多重插补不只生成一个单一的值对缺失值进行插补,它会生成许多后备值,通过这些后备值分析计算得到该个缺失值的分布,从而从这个分布中进行随机抽样对缺失值进行填补,但是多重插补得到后备值得方法还是才是回归,马尔科夫链等,因此插补数据的准确性还有待提升。近期,数据插补领域提出采用深度神经网络技术进行缺失数据插补。由于深度神经网络不需要精确的数学模型,非线性映射能力好,擅长从输入输出数据中学习有用的知识,揭示数据特征,处理随机因素。通过对深度神经网络充分的训练,利用深度神经网络自组织优化建模的能力,不断的以训练数据进行自组织优化,从而形成最优的提取原始数据特征的模型,将提取的特征基于数据驱动,多重插值等方式建模,从而提升插补数据的精度。
发明内容
本发明的目的在于克服现有技术的不足,提供一种本发明的目的在于改进现有大数据下缺失数据插补的准确性,提供一种能有效提高插补准确率,并且数据缺失率保持在15%以下,平均填补准确率在89%~99.95%之内的大数据分析中缺失数据混合多重插值装置和方法。
本发明的目的是通过以下技术方案来实现的,一种大数据分析中缺失数据混合多重插值的装置,该装置包括以下模块:
模型训练模块,根据事先采集得到的训练数据与目标数据建立以训练数据各个属性为输入变量参数,缺失数据的预估为输出的混合多重插值模型;
缺失数据插补模块,将训练模块中得到的特征向量输入到缺失数据填充模型中,得到缺失数据预估值,将缺失数据预估值填补到原始数据,得到完整数据。
一种大数据分析中缺失数据混合多重插值的装置还包括数据预处理模块,所述数据预处理模块用于分析数据缺失模式以及对数据进行归一化处理。
所述的预处理模块通过加载原始数据,同时对原始数据进行分类,得到完整数据集和不完整数据集;再通过对完整数据集采样得到训练数据集,并对训练数据集进行归一化处理;最后对训练数据集进行模拟缺失,缺失数据形成目标数据集合,得到用于训练模型的输入和输出数据集合。
所述的模型训练模块包括以下子模块:数据特征向量提取模块和目标训练模块,其中所述的目标训练模块包括以下子模块:单一缺失模式训练模型和任意缺失模型。
所述的模型训练模块是根据采集训练数据和目标数据建立以各属性为输入的变量参数,缺失数据的预估为输出的混合多重插值模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710385780.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置