[发明专利]一种生物标志物筛选方法有效
| 申请号: | 201510207807.7 | 申请日: | 2015-04-27 |
| 公开(公告)号: | CN104866863B | 公开(公告)日: | 2018-02-16 |
| 发明(设计)人: | 王君;林晓惠;丁翔飞 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 大连理工大学专利中心21200 | 代理人: | 李宝元,梅洪玉 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明为一种生物信息的数据挖掘方法,属于生物、计算机与数学交叉技术领域。首先根据特征在样本上的分布,计算重叠区域权重O,再计算SVM权重和变量关系得分。MBS采用特征的SVM权重|wi|、重叠区域权值OAi和变量关系得分值Scorei综合评价该特征,也作为排名依据,确定参数α1的最优值后,确定参数α2的值。本发明研究了变量关系得分,把它和变量重叠区域权值、特征权重一起考察,提供了一种特征综合评价的新方法。最终通过改善特征选择性能,帮助发现生物标志信息。 | ||
| 搜索关键词: | 一种 生物 标志 筛选 方法 | ||
【主权项】:
一种生物标志物筛选方法,其特征在于以下步骤:(1)设当前生物标志物的特征集合为F,初始时,F包含所有生物标志物的特征,FS为空;maxACC=0,r=5,r为迭代删除当前特征集中综合评价权重低的特征的百分率;其中FS表示特征子集,maxACC为当前得到的最大准确率;(2)根据特征在样本上的分布,计算每一特征fi∈F的重叠度OAi;对于重叠度OAi的计算方法如下:设一个c>2类问题包含n个样本和p个特征;对于特征fi,首先用它在第k类样本上的均值加减修正的标准偏差,作为其有效范围,其中1≤i≤p,1≤k≤c;再计算其在类别h和k中的重叠区域,即特征fi在h类、k类的有效范围的交集作为重叠区域值,其中1≤h≤c,h≠k;然后计算重叠区域系数并标准化;最后用1减去标准重叠区域系数,得到特征fi的重叠度OAi;(3)α1、α2是分别用于调整特征重叠度和特征关系得分在变量综合评价中的比例的参数,0≤α1<1,0≤α2<1,寻优初始时,设定α2=0,即不考虑特征关系得分,先对参数α1进行寻优;(4)根据F构建SVM分类模型,计算特征集合F的5倍交叉验证的分类准确率ACC,计算每一特征fi∈F的|wi|,其中,|wi|是SVM计算的特征权重的绝对值;(5)若ACC>maxACC,那么maxACC=ACC,FS=F;(6)对F中的每一特征fi,计算其关系得分Scorei;(7)计算特征的综合得分E(i):其中,E(i)是特征fi的综合得分,|wi|是SVM计算的特征权重,OAi是特征fi的重叠度,Scorei是fi的关系得分;(8)生物标志物筛选方法使用E(i)综合评价当前特征集中每一特征的重要性,删除当前特征集中综合评价权重低的r%特征,0<r<100,重复步骤(4)、(5)、(6)、(7)和(8),直到F为空,r为迭代删除当前特征集中综合评价权重低的特征的百分率;(9)α1在[0,1)的范围内按照步长0.1步进,令F包含初始时所有输入特征,重复步骤(4)、(5)、(6)、(7)和(8),计算α1在每个步长选择的特征子集,得到“最优”特征子集时对应α1的“最优”值;(10)设定α1为“最优”取值,α2在[0,1)的范围内按步长0.1步进,F为包含初始时所有输入特征,重复步骤(4)、(5)、(6)、(7)和(8),计算α2在每个步长选择的特征子集,得到“最优”特征子集时对应参数α2的“最优”取值;(11)输出α1“最优”值和α2“最优”值时对应的“最优”特征子集FS;所述的特征关系得分Scorei,计算方法如下:a.对一个c>2类问题,当前特征集合为F,p是F中所含特征数量,按照“一对一”准则划分为c(c‑1)/2个两类问题;在每一个两类问题上,按照最高得分对方法计算特征fi和F中其他特征fj的得分Δij;b.计算在c(c‑1)/2个两类问题上特征fi和F中其他特征的关联性的平均得分:Scorei=2×Σm=1c×(c-1)/2Σfj∈F,j≠iΔijm2c×(c-1)×(p-1)---(2);]]>其中,Scorei表示fi的特征关系得分;fj是当前特征集合中所有除fi以外的特征;对fi和F中其余的每一特征fj计算二者在每一个2类问题上的最高得分对得分,其中m∈{1,2,c(c‑1)/2};Δijm代表fi和fj在第m个2类问题上的最高得分对得分,Δijm的平方保证最高得分对得分高的一对特征的优势,同时加大最高得分,对得分低的一对特征和得分高的一对特征的差距;Δijm平方的和的均值让其数值保持在特征权重|wi|和重叠度OAi的数量级上,让生物标志物筛选方法建模时均衡考虑将三者作为特征的综合评价。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510207807.7/,转载请声明来源钻瓜专利网。





