[发明专利]一种在高维数据中快速识别特征组合的方法及系统有效

申请号：	201410001461.0	申请日：	2014-01-02
公开（公告）号：	CN103761426B	公开（公告）日：	2017-01-04
发明（设计）人：	王勇	申请（专利权）人：	中国科学院数学与系统科学研究院
主分类号：	G06F19/24	分类号：	G06F19/24;G06K9/62
代理公司：	北京君尚知识产权代理事务所(普通合伙)11200	代理人：	余长江
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据快速识别特征组合方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于网络信息技术领域，涉及一种在高维数据中快速识别特征组合的方法及系统。

背景技术

大数据时代的到来呼唤数据建模和分析的研究，例如基于大数据的生物标记物的健康诊断是一个重要的研究热点，有着广阔的应用前景。我们注意到，许多学科领域的科学家们开始日益重视并依赖计算机方法及数学建模作为辅助的研究手段。帮助分析海量的科研数据，探究人的形象思维难以企及的高维数据空间中隐藏的规律，并由此催生出一系列新的交叉学科和研究方向，例如：数值计算，数据挖掘，生物信息学，计算金融，计算化学，以及计算统计学理论研究等。这些研究方向所面临的共同挑战就是如何正确分析和解读数据中包含的有用信息，从而为研究者提供传统观测手段所无法得到的判据和模型。其中一个突出的热点就是统计机器学习中的特征选择方法研究（刘峤，秦志光，罗旭成，程红蓉.统计机器学习中的特征选择方法综述,2009中国计算机大会论文集）。

特征是一个抽象的概念，数学中可以表示为向量中的元素，应用中可以是研究和测量对象的一个属性。例如在生物医学应用中，特征可以是生物标记物。生物标记物是指能将机体的生理和病理状态区分开来的生物分子。例如肿瘤标志物（Tumor Marker）是反映肿瘤存在的化学类物质。它们或不存在于正常成人组织而仅见于胚胎组织，或在肿瘤组织中的含量大大超过在正常组织里的含量，它们的存在或量变可以提示肿瘤的性质，借以了解肿瘤的组织发生、细胞分化、细胞功能，以帮助肿瘤的诊断、分类、预后判断以及治疗指导。

特征选择方法的研究历史可以追溯到70年代。从1973年Hirotsugu Akaike首次将信息论有关原理与最大似然法相结合，提出Akaike信息准则（AIC，Akaike Information Criterion），并成功运用于统计模型的选择开始，特征选择研究在统计模式识别，机器学习，数据挖掘等领域取得了长足的进展，其研究成果也已广泛应用于文本分类，基因组分析，图像提取，入侵检测等实际工作中。近年来学术界关于特征选择的研究热点逐渐转向了对“高维特征空间，小样本数据”情况的研究。其深刻原因是由于信息技术的发展对传统的数据分析技术提出了严峻的挑战。例如，在计算系统生物学领域，实验中科学家们能够获得的正反样本总数通常不超过100，而待选择的基因表达变量的数量则通常在6,000到30,000这个数量级，是典型的“大特征，小样本”问题。通过采用适当的特征选择方法对数据进行预处理，则可以实现在可容忍的信息损失前提下，将特征的维数降低到数百乃至数十，这样的结果也更易于分析和解释。

在特征选择研究领域，通常认为有四种设计模式，分别为Filter，Wrapper，Hybrid和Embeded。其中，Filter和Wrapper的历史比较悠久，也是最易于理解和得到广泛实际应用的两种设计模式，而Hybrid和Embeded方法则是近年来新发展起来的特征选择算法设计模式，目的是克服前述算法中存在的不足，结合二者的长处，可探索新的特征选择算法设计模式。

特征选择的优势但同时也是难点在于特征的组合效应。例如通过全自动生化分析仪可以测量到大量病人和健康人群的血清中的蛋白或者代谢小分子的浓度数据，一个直接的应用就是构建特征选择模型，来对比健康人群和病人的不同，找到明显差异的蛋白或者代谢小分子，作为生物标记物，并进一步基于他们对新的样本和测量数据进行健康评估或者诊断。一般来说，这对单个分子而言，可以通过比较该分子在健康和病人人群值的差异，计算差异倍数，并作严格的统计分析，可以得到有区分能力的单个标记物。但是单个标记物在预测的稳定性、精度等方面存在不足，急需研究新的方法来使用两个或更多种标记物的测量结果来改进检查中的诊断问题。当然一种十分简单但通常仍然很有效的方法就是直接对有预测能力的单个分子标记物进行叠加，即如果样品对被检标记物的至少一种呈阳性，则认为是阳性结果。但是，对于复杂疾病而言，更为重要的、更为关心的是对标记物之间的非线性组合的发现，及组合中单个标记物的预测能力都很弱，但是组合之后却有很好、很稳定的预测能力。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院数学与系统科学研究院，未经中国科学院数学与系统科学研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410001461.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学，即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真，例如：概率模型或动态模型，遗传基因管理网络，蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的，例如：进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的，例如：结构排序，结构或功能关系，蛋白质折叠，结构域拓扑，用结构数据的药靶，涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的，例如：基因型–表型关联，不均衡连接，种群遗传学，结合位置鉴定，变异发生，基因型或染色体组的注释，蛋白质相互作用或蛋白质核酸的相互作用

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种在高维数据中快速识别特征组合的方法及系统有效

专利文献下载