[发明专利]一种生物医学关键属性选择方法在审
申请号: | 201710332543.7 | 申请日: | 2017-05-12 |
公开(公告)号: | CN107169284A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 罗森林;潘丽敏;张岳峰;胡雅娴 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生物医学 关键 属性 选择 方法 | ||
技术领域
本发明涉及一种生物医学关键属性选择方法。从应用范围的角度讲,属于生物医学技术领域;从技术实现的角度来讲,亦属于计算机科学与生物信息处理技术领域。
背景技术
近年来,生物医学研究迅速发展,特别是测量仪器技术的提高和医院信息系统的推广,使得大量医学信息能够被精确的记录下来,从而导致医学数据资料爆炸性增长。然而大量丰富复杂的数据给研究工作带来充足资料的同时,也给研究人员的分析处理带来了更大的挑战。数据挖掘总体过程包括数据采集、数据预处理、知识挖掘、模型评估和知识应用,能够很好的处理海量数据,并能从提取潜在有用知识,正是由于该特性,数据挖掘技术从提出起就被应用到生物医学研究领域,并取得了相当大的成功。
对于生物医学研究领域来说,信息采集时往往没有特定具体的研究目标,导致原始数据集中包含大量属性,需要在数据分析之前对原始数据进行属性选择,得到一个具有代表性的属性子集,其主要目的有:去除不相关属性、冗余属性,提高存储效率;去除共线性属性和噪声属性,减少对数据分析的干扰和影响;提高模型的泛化性能和运行效率;得到更加简单和容易理解的学习模型,提高模型的可解释性。
在生物医学研究过程中进行属性选择,虽然现在已经有很多属性选择的方法,但是并不存在一种适用于任何问题的属性选择方法。按照评价标准区分属性选择算法,主要分为两类:
1.过滤式属性选择(Filter)
过滤式属性选择是一种计算效率较高的方法,它通过数据集本身的内在性质得到评价标准,与特定的学习算法无关,具有较好的通用性。过滤式属性选择的评价标准分为四类:即距离度量、信息度量、关联度度量和一致性度量。
(1)距离度量包括几何距离度量和概率距离度量。其中,几何距离的评价标准通常分为类内和类间散度矩阵。类内散度矩阵表示各样本点围绕均值的散布情况,类间散度矩阵表示各类模式之间在空间的散布情况。属性选择的结果应使类内散布矩阵的迹越小越好,类间散布矩阵的迹越大越好。基于概率距离的评价标准有Kullback-Leibler距离,又称相对熵,衡量相同事件空间里的两个概率分布的差异情况,由于其需要已知各个类别的概率密度函数,故具有很大的局限性。
(2)信息度量是采用信息论中基于熵的评价标准,比如最小描述长度(Minimum div length)、互信息(Mutual Information)、信息增益(Information Gain)等。这些评价标准描述属性的复杂程度,代表属性包含信息量的大小,属性选择往往选择复杂程度较大的属性。
(3)关联性度量主要考察属性间的关联度,即相关性和冗余性。其中线性关联有线性相关系数(皮尔逊系数和斯皮尔曼相关系数)等,非线性关联有基于信息熵的互信息、对称的不确定性等。
(4)一致性度量试图找到与全集相同分类能力的最小特征子集,不一致性定义为如果在选定的特征子集取值相同的样本,却属于不同的类。
2.封装式属性选择(Wrapper)
封装式属性选择使用学习算法的性能指标来评价属性子集的优劣,也就是封装法使用待评价的属性子集训练分类器,再根据分类器的性能对该属性子集进行评价。
封装法用以评价属性子集优劣的学习算法是多种多样的,对于使用的学习算法要求很低,大部分分类算法都可以使用封装法,例如决策树、神经网络、贝叶斯分类器、支持向量机以及近邻法等等。
过滤法的通用性强,省去了模型训练步骤,算法复杂度低,适用于大规模数据集,可以快速去除大量不相关属性,但是该方法独立于特定的学习算法,分类准确率较低。而封装法虽然得到的属性子集分类性能较好,但是特征通用性不强,并且算法计算复杂度较高,尤其对于大规模数据集来说,算法的执行时间很长。
综上所述,现有属性选择算法仅针对特定评价指标选择属性子集,无法兼顾通用性和算法复杂度,对大规模数据集的处理效率较低;而对生物医学数据进行属性选择的效果也不甚理想,仍待进一步提高。
发明内容
本发明的目的是为解决生物医学数据中属性选择的问题,提出一种基于boruta-逻辑回归的属性选择方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710332543.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防治植物害虫的植物源农药及其应用
- 下一篇:一种中药消毒抑菌喷雾剂
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用