[发明专利]一种结合随机森林和Relief-F的全基因组SNP位点分析方法有效

专利信息
申请号: 201410765415.8 申请日: 2014-12-11
公开(公告)号: CN104462868A 公开(公告)日: 2015-03-25
发明(设计)人: 杨利英;黎成;殷黎洋;张军英;袁细国 申请(专利权)人: 西安电子科技大学
主分类号: G06F19/18 分类号: G06F19/18
代理公司: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 汤东凤
地址: 710071 陕西省*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种结合随机森林和Relief-F的全基因组SNP位点分析方法,首先应用广义线性模型对SNP位点进行初步筛选,接着利用Relief-F处理SNP交互作用的能力,预先将存在交互作用的SNP位点排到队列前面,然后将队列后面的SNP位点利用随机森林进行排名,以识别单个SNP位点的边缘作用,这样得到一个SNP的排名队列,去掉排在队列末端的SNP位点之后,重新应用Relief-F和随机森林进行处理,如此迭代,最后得到SNP位点的排序结果。本发明综合考虑单个SNP位点的作用和位点之间的交互作用,能处理全基因组SNP数据,进而发现与复杂疾病相关的SNP位点,对复杂疾病的致病机理研究、疾病风险预测和生物药物研制等都有重要的意义。
搜索关键词: 一种 结合 随机 森林 relief 基因组 snp 分析 方法
【主权项】:
一种结合随机森林和Relief‑F的全基因组SNP位点分析方法,其特征在于,所述方法包括如下步骤:S1、对样本数据进行预处理:如果样本数据是AA这种碱基对形式,则对每个SNP位点进行编码,编码成最小等位基因的个数;如果最小等位基因为a,那么基因型AA、Aa、aa分别编码成0、1、2,去掉最小等位基因频率小于设定值的SNP位点;S2、设单核苷酸多态SNP的个数为m,设置进入下一阶段处理的SNP个数的上限为Lu;若m<=Lu,则直接执行步骤S3,若m>Lu,则对每个SNP位点xj(j=1,2,...,m)与样本类别变量y建立广义线性模型以评估单个SNP的作用,建立的广义线性模型如下:<mrow><mi>g</mi><mrow><mo>(</mo><mi>E</mi><mrow><mo>(</mo><mi>y</mi><mo>|</mo><mi>X</mi><mo>)</mo></mrow><mo>)</mo></mrow><mo>=</mo><msub><mi>&beta;</mi><mn>0</mn></msub><mo>+</mo><msubsup><mi>&Sigma;</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup><msub><mi>&beta;</mi><mi>j</mi></msub><msub><mi>x</mi><mi>j</mi></msub><mo>;</mo></mrow>其中g函数为logit函数,β为模型系数,样本X=(x1,x2,...,xm)T;根据广义线性模型建模的结果,通过对每个SNP位点对应的p值进行递增排序,筛选得到前Lu个SNP位点构成集合S,所述p值是统计学假设检验方法得到的概率值,表示变量的显著性;设置SNP位点个数m=Lu并执行步骤S3;S3、对SNP位点集合进行后向缩减,其中设置每次迭代时过滤SNP的比例为q,迭代次数为随机森林排名的SNP位点个数和初始SNP位点总和的比例为r(r>q),SNP位点的排名结果队列记为SNPrank,初始化SNP位点个数为u=m;单次迭代的过程如下:3.1)利用Rel ief‑F方法对u个SNP位点进行权重排名,得到降序的u个SNP位点;3.2)利用随机森林方法对降序后的u个SNP位点中后面个SNP位点按照置换重要性值进行降序排名;3.3)将排名末尾个SNP位点存到SNPrank队列的头部,并根据对u进行更新;S4、将最后一次迭代后剩下的SNP位点集合添加到SNPrank队列的头部,这样就得到了完整的SNP位点排名;S5、取SNPrank前k个SNP位点为显著SNP位点。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410765415.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top