[发明专利]一种结合随机森林和Relief-F的全基因组SNP位点分析方法有效
申请号: | 201410765415.8 | 申请日: | 2014-12-11 |
公开(公告)号: | CN104462868A | 公开(公告)日: | 2015-03-25 |
发明(设计)人: | 杨利英;黎成;殷黎洋;张军英;袁细国 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种结合随机森林和Relief-F的全基因组SNP位点分析方法,首先应用广义线性模型对SNP位点进行初步筛选,接着利用Relief-F处理SNP交互作用的能力,预先将存在交互作用的SNP位点排到队列前面,然后将队列后面的SNP位点利用随机森林进行排名,以识别单个SNP位点的边缘作用,这样得到一个SNP的排名队列,去掉排在队列末端的SNP位点之后,重新应用Relief-F和随机森林进行处理,如此迭代,最后得到SNP位点的排序结果。本发明综合考虑单个SNP位点的作用和位点之间的交互作用,能处理全基因组SNP数据,进而发现与复杂疾病相关的SNP位点,对复杂疾病的致病机理研究、疾病风险预测和生物药物研制等都有重要的意义。 | ||
搜索关键词: | 一种 结合 随机 森林 relief 基因组 snp 分析 方法 | ||
【主权项】:
一种结合随机森林和Relief‑F的全基因组SNP位点分析方法,其特征在于,所述方法包括如下步骤:S1、对样本数据进行预处理:如果样本数据是AA这种碱基对形式,则对每个SNP位点进行编码,编码成最小等位基因的个数;如果最小等位基因为a,那么基因型AA、Aa、aa分别编码成0、1、2,去掉最小等位基因频率小于设定值的SNP位点;S2、设单核苷酸多态SNP的个数为m,设置进入下一阶段处理的SNP个数的上限为Lu;若m<=Lu,则直接执行步骤S3,若m>Lu,则对每个SNP位点xj(j=1,2,...,m)与样本类别变量y建立广义线性模型以评估单个SNP的作用,建立的广义线性模型如下:![]()
其中g函数为logit函数,β为模型系数,样本X=(x1,x2,...,xm)T;根据广义线性模型建模的结果,通过对每个SNP位点对应的p值进行递增排序,筛选得到前Lu个SNP位点构成集合S,所述p值是统计学假设检验方法得到的概率值,表示变量的显著性;设置SNP位点个数m=Lu并执行步骤S3;S3、对SNP位点集合进行后向缩减,其中设置每次迭代时过滤SNP的比例为q,迭代次数为
随机森林排名的SNP位点个数和初始SNP位点总和的比例为r(r>q),SNP位点的排名结果队列记为SNPrank,初始化SNP位点个数为u=m;单次迭代的过程如下:3.1)利用Rel ief‑F方法对u个SNP位点进行权重排名,得到降序的u个SNP位点;3.2)利用随机森林方法对降序后的u个SNP位点中后面
个SNP位点按照置换重要性值进行降序排名;3.3)将排名末尾
个SNP位点存到SNPrank队列的头部,并根据
对u进行更新;S4、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部,这样就得到了完整的SNP位点排名;S5、取SNPrank前k个SNP位点为显著SNP位点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410765415.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种信息处理方法及一种电子设备
- 下一篇:T波动态建模与多通道融合估计方法
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用