[发明专利]一种生物标志物筛选方法有效
| 申请号: | 201510207807.7 | 申请日: | 2015-04-27 |
| 公开(公告)号: | CN104866863B | 公开(公告)日: | 2018-02-16 |
| 发明(设计)人: | 王君;林晓惠;丁翔飞 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 大连理工大学专利中心21200 | 代理人: | 李宝元,梅洪玉 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 生物 标志 筛选 方法 | ||
技术领域
本发明为一种生物信息的数据挖掘方法,属于生物、计算机与数学交叉技术领域。
背景技术
近年来,随着科学技术的发展,数据收集越来越易于实现。使基因、蛋白和代谢组学数据具有高维、海量等特点,如何从高维数据中筛选有用的特征(变量)信息被作为挑战问题提出。
支持向量机迭代特征删除算法(Support Vector Machine-Recursive Feature Elimination,SVM-RFE)是一种高性能的特征选择方法,广泛应用于基因、蛋白、代谢等领域。SVM-RFE在每次迭代时,根据当前特征子集构建超平面,同时计算特征的权重。但是随着分析技术的发展,基因、蛋白等生物数据维数巨增,其中存在噪音和不含问题相关信息的无关变量。噪音和无关的变量的存在可能会影响SVM超平面的构建,从而使得特征权重的评价产生误差。为了更加准确地确定区分能力强的特征子集,基于重叠区域的支持向量机迭代特征删除算法(Support Vector Machine-Recursive Feature Elimination Based on Overlapping Area,OA-SVM-RFE)统计分析每一特征在不同类别样本中的重叠度,在迭代删除过程中将SVM计算的特征的权重和特征的重叠度结合,综合评价特征。而在实际的生物数据分析中,还会存在特征之间相互关联,共同表征复杂的生命现象。因此在处理高维生物信息样本、选择区分反映不同类别的生物样本的特征时,考虑变量之间的相互关联,有助于确定反映不同种类疾病、药物疗效等的标志信息。
对于本发明使用的特征重叠区域权值(重叠度)OA,计算方法如下:
设一个c>2类问题包含n个样本和p个特征。对于特征fi(1≤i≤p),首先用它在第k(1≤k≤c)类样本上的均值加减修正的标准偏差,作为其有效范围;再计算其在类别h和k(1≤h≤c,h≠k)中的重叠区域,即特征fi在h类、k类的有效范围的交集作为重叠区域值;然后计算重叠区域系数并标准化;最后用1减去标准重叠区域系数,得到特征fi的重叠区域权值OA。
重叠区域是在各类样本之间特征的重叠深度,某一特征的重叠区域越小,在该特征上样本区分较容易,则特征的重叠区域权值越大。
发明内容
为了解决上述生物问题,通过变量之间的相互关系,挖掘生物数据的潜在标志物,更准确地提供辅助分析,本发明提供一种生物数据分析的方法——生物标志物筛选方法(A Method of Biomarkers Selection,MBS)。
SVM-RFE是一种基于支持向量机的特征选择方法。SVM通过构建超平面来建立分类模型,同时对超平面上的每个维度(特征、变量)计算权重|w|。SVM-RFE据此来迭代删除权重小的特征。最后被删除的特征一般区分能力强。OA-SVM-RFE方法在SVM-RFE基础上考察了特征在不同类别样本上的重叠区域,重叠区域较高的变量,由于各类样本在该变量上分布混杂在一起,较难区分,所以变量的区分能力弱低,重叠区域权值OA低;反之,重叠区域低的变量,区分能力强,重叠区域权值OA高。OA-SVM-RFE在每一次迭代时,同时使用SVM计算的特征权重|w|和变量的重叠度度量,综合评价当前特征集中每一特征的重要性,删除综合评价指标低的特征。
在复杂的生物现象中,变量之间可能相互联系、相互作用。因此在生物信息处理中,考虑变量之间的关联性有助于要有效挖掘隐藏在大量数据中反映不同生命现象的标识信息。在两类问题中,最高得分对(top scoring pair(s),TSP)成对考察变量,通过统计分析一对变量fi和fj(i≠j)在不同类别样本中含量相对关系的差异,计算两个变量关系的得分△ij,据此评价对变量的区分能力。TSP得分越高,则该对变量越好。
本发明提出变量关系得分Score,利用TSP方法评价变量与当前特征子集中其他变量的平均关联性,从变量在SVM超平面上的贡献、自身在样本上分布的统计性能、与当前特征子集中其他变量的平均关联性三个角度出发,综合评价特征的重要性,以发现生物标志信息。
本发明评价特征的综合得分:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510207807.7/2.html,转载请声明来源钻瓜专利网。





