[发明专利]一种生物医学空缺数据弥补方法有效
申请号: | 201310074916.7 | 申请日: | 2013-03-08 |
公开(公告)号: | CN103177088A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 罗森林;韩龙飞;潘丽敏;张铁梅 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生物医学 空缺 数据 弥补 方法 | ||
技术领域
本发明涉及一种生物医学空缺数据弥补方法,属于生物医学技术领域。
背景技术
近年来,随着计算机科学技术的不断发展,数据挖掘技术被广泛应用于各领域之中。数据挖掘总体过程包括问题理解、数据采集和理解、预处理、数据挖掘、模型评估和知识应用,数据挖掘的成功与否和适用性能在很大程度上取决于数据质量。然而,在针对生物医学数据挖掘各个环节过程中,数据不完全的现象是不可避免的,存在着不同程度的空缺数据,也称为空缺值。为了能在生物医学研究领域中有效地应用数据挖掘的方法和系统,就必须面对数据不完整的挑战。
对生物医学研究领域来说,空缺值产生有多方面原因:有些医学筛查数据属性的内容没有;有些数据当时被认为是不必要的;由于误解或检测设备失灵导致相关数据没有记录下来;与其他记录内容不一致而被删除;历史记录或对数据的修改被忽略了或者属性的值根本不能直接观测到等。
面对生物医学研究过程中存在的缺失值,虽然现在已经有很多数据填充方法,但并不存在一种可以适合于任何问题的空缺值填充方法。无论哪种填充方法都无法避免主观因素的存在,并且在空缺值过多的情形下将系统完备化是不可行的。在空缺值弥补技术的研究趋势主要呈现以下两个方面:1.构建空缺值弥补模型,该模型可以较好的适用于生物医学领域中任何空缺数据弥补问题,具有很好的普适性;2.基于数据挖掘和统计理论提出更为合适的算法,能够预测数据中存在的空缺值,并且具有较小的误差。综观现有生物医学空缺数据弥补方法,通常使用的方法有:
1.MI填补算法:该方法针对大部分简单填充方法的填充数据唯一且填充后的数据集不能表现出原有数据集的不确定性,导致结果产生较大的偏差问题而由Rubin提出,该方法是建立在贝叶斯理论基础之上,用EM算法来实现对缺失数据的处理。其主要思想是:首先为每个缺失值构造一套可能的估计值,这些值反映了缺失模型的不确定性,这样就形成若干个完整数据集;然后对每个完整数据集分别使用相同的方法处理;最后综合来自各个填充数据集的结果,得到对目标变量的统计推断。
2.KNN填补算法:该方法采用数据挖掘中分类思想,通过搜索模式空间,找出最接近空缺数据的k个完全数据,并通过完全数据的加权平均计算空缺数据的空缺值。该方法的主要思想是:首先将数据集分为完全数据集和缺失数据集两个部分;然后计算缺失数据集中的每个样本其与完全数据集中各样本的相似性,找到与缺失数据样本最近邻的k个数据;最后将缺失数据样本与完全数据样本的距离的倒数作为样本间的权重,根据各完全数据计算缺失数据的估计值。
3.关联规则填补算法:该方法由Agrawal等人于1993年提出,其主要思想是:首先找出所有的频繁项集;然后由频繁项集生成强关联规则;最后利用通过对提取出的关联规则进行排序或分组,取优先权最高的规则进行填补。
4.K-means填补算法:该方法的主要思想是首先通过计算完全数据集中各样本间的距离将数据样本分成不同簇,并使同一个簇中的对象之间具有很高的相似度,而不同簇中的对象高度相异;然后计算缺失数据集中各缺失数据与各聚类簇的聚类,并将该缺失数据分到对应的聚类簇中;最后采用不同核函数对缺失数据进行弥补。
5.SVR(支持向量回归)算法:支持向量回归方法就是针对传统回归分析的局限性,该方法与SVM方法相同,采用结构风险最小化原则,将求解过程转化为一个二次型寻优问题。SVR算法采用核函数的映射方法,将实际问题通过非线性变换转换到高维的特征空间,并在高维空间中构造线性判别函数来实现原空间中的非线性判别函数。通过近似核函数的非线性回归特征空间的线性回归进行空缺值弥补。
综上所述,现有算法仅针对可忽略的缺失机制下进行研究,不适用于任意缺失机制,提出的各方法不具有代表性;同时,针对生物医学空缺数据弥补的准确性也不甚理想,仍待进一步提高。
发明内容
本发明的目的是为解决生物医学数据中存在空缺值的问题,提出一种基于EM聚类-BP神经网络的空缺数据弥补方法。
本发明的设计原理为:首先,采用处理不完全数据问题中很重要的迭代算法EM算法,通过EM聚类,将不同缺失数据划分到不同的簇中,完成初步弥补;然后通过BP神经网络方法对每个簇中的完全数据建模,并完成对各个簇中缺失数据的精确弥补。其主要思想是针对不同缺失数据的缺失特点将缺失数据划分到具有相应特点的聚类簇中,然后根据BP神经网络算法估计完全数据属性的权重,计算含缺失数据的对应属性缺失值的预测值,在一定程度上加强弥补算法对任意缺失机制的适用性,并提高弥补的准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310074916.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种手机用显示屏盖板
- 下一篇:一种用于制造聚苯乙烯片材的电机集中冷却装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置