[发明专利]一种生物医学关键属性选择方法在审

专利信息
申请号: 201710332543.7 申请日: 2017-05-12
公开(公告)号: CN107169284A 公开(公告)日: 2017-09-15
发明(设计)人: 罗森林;潘丽敏;张岳峰;胡雅娴 申请(专利权)人: 北京理工大学
主分类号: G06F19/00 分类号: G06F19/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 生物医学 关键 属性 选择 方法
【说明书】:

技术领域

发明涉及一种生物医学关键属性选择方法。从应用范围的角度讲,属于生物医学技术领域;从技术实现的角度来讲,亦属于计算机科学与生物信息处理技术领域。

背景技术

近年来,生物医学研究迅速发展,特别是测量仪器技术的提高和医院信息系统的推广,使得大量医学信息能够被精确的记录下来,从而导致医学数据资料爆炸性增长。然而大量丰富复杂的数据给研究工作带来充足资料的同时,也给研究人员的分析处理带来了更大的挑战。数据挖掘总体过程包括数据采集、数据预处理、知识挖掘、模型评估和知识应用,能够很好的处理海量数据,并能从提取潜在有用知识,正是由于该特性,数据挖掘技术从提出起就被应用到生物医学研究领域,并取得了相当大的成功。

对于生物医学研究领域来说,信息采集时往往没有特定具体的研究目标,导致原始数据集中包含大量属性,需要在数据分析之前对原始数据进行属性选择,得到一个具有代表性的属性子集,其主要目的有:去除不相关属性、冗余属性,提高存储效率;去除共线性属性和噪声属性,减少对数据分析的干扰和影响;提高模型的泛化性能和运行效率;得到更加简单和容易理解的学习模型,提高模型的可解释性。

在生物医学研究过程中进行属性选择,虽然现在已经有很多属性选择的方法,但是并不存在一种适用于任何问题的属性选择方法。按照评价标准区分属性选择算法,主要分为两类:

1.过滤式属性选择(Filter)

过滤式属性选择是一种计算效率较高的方法,它通过数据集本身的内在性质得到评价标准,与特定的学习算法无关,具有较好的通用性。过滤式属性选择的评价标准分为四类:即距离度量、信息度量、关联度度量和一致性度量。

(1)距离度量包括几何距离度量和概率距离度量。其中,几何距离的评价标准通常分为类内和类间散度矩阵。类内散度矩阵表示各样本点围绕均值的散布情况,类间散度矩阵表示各类模式之间在空间的散布情况。属性选择的结果应使类内散布矩阵的迹越小越好,类间散布矩阵的迹越大越好。基于概率距离的评价标准有Kullback-Leibler距离,又称相对熵,衡量相同事件空间里的两个概率分布的差异情况,由于其需要已知各个类别的概率密度函数,故具有很大的局限性。

(2)信息度量是采用信息论中基于熵的评价标准,比如最小描述长度(Minimum div length)、互信息(Mutual Information)、信息增益(Information Gain)等。这些评价标准描述属性的复杂程度,代表属性包含信息量的大小,属性选择往往选择复杂程度较大的属性。

(3)关联性度量主要考察属性间的关联度,即相关性和冗余性。其中线性关联有线性相关系数(皮尔逊系数和斯皮尔曼相关系数)等,非线性关联有基于信息熵的互信息、对称的不确定性等。

(4)一致性度量试图找到与全集相同分类能力的最小特征子集,不一致性定义为如果在选定的特征子集取值相同的样本,却属于不同的类。

2.封装式属性选择(Wrapper)

封装式属性选择使用学习算法的性能指标来评价属性子集的优劣,也就是封装法使用待评价的属性子集训练分类器,再根据分类器的性能对该属性子集进行评价。

封装法用以评价属性子集优劣的学习算法是多种多样的,对于使用的学习算法要求很低,大部分分类算法都可以使用封装法,例如决策树、神经网络、贝叶斯分类器、支持向量机以及近邻法等等。

过滤法的通用性强,省去了模型训练步骤,算法复杂度低,适用于大规模数据集,可以快速去除大量不相关属性,但是该方法独立于特定的学习算法,分类准确率较低。而封装法虽然得到的属性子集分类性能较好,但是特征通用性不强,并且算法计算复杂度较高,尤其对于大规模数据集来说,算法的执行时间很长。

综上所述,现有属性选择算法仅针对特定评价指标选择属性子集,无法兼顾通用性和算法复杂度,对大规模数据集的处理效率较低;而对生物医学数据进行属性选择的效果也不甚理想,仍待进一步提高。

发明内容

本发明的目的是为解决生物医学数据中属性选择的问题,提出一种基于boruta-逻辑回归的属性选择方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710332543.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top