[发明专利]一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法在审
申请号: | 202110955838.6 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113724782A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 胡曦;吴晓明;万金平;宋佳霖;杜建强;马欣越;张虎勤 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B25/10;G16B5/00 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 王艾华 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 可变 腺苷 酸化 疾病 预后 标志 筛选 方法 | ||
本发明公开了一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法。本发明主要基于逐步回归模型和最小最大凹惩罚的Cox回归模型,从转录组测序数据中识别预后相关APA特征,筛选稳定的预后风险相关标志基因组,提供预后风险得分计算公式,基于数据辅助预测临床患者预后。本发明提供了构建应用于临床患者分层指标的新思路,在已有数据的实施和验证中表现出较高的准确性,并可以简便的推广到任意数据集。
技术领域
本发明涉及高通量测序、基因可变聚腺苷酸化位点识别和疾病预后风险基因筛选技术领域。具体涉及一种基于可变聚腺苷酸化表达数据的预后风险基因组筛选方法及其应用。
背景技术
可变聚腺苷酸化(Alternative poyadenylation,APA)是基因的一种主要转录后调节方式。APA位点常发生于基因的3’非编码区域,可产生不同3’非编码区末端的转录本,在poly(A)聚合酶的作用下生成不同位置和长度的poly(A)尾,影响RNA加工因子和RNA结合蛋白等调节分子与转录本的结合,进而影响mRNA的稳定性及不同转录本的表达。已有研究发现,APA具有显著的组织特异性,在细胞的增殖和分化中具有重要作用。
恶性肿瘤作为一种与细胞的异常分化和增殖密切相关的疾病,其细胞中一些基因的APA位置及转录本表达量与正常细胞存在显著差异。例如,在8号染色体和21号染色体易位白血病(t(8;21)AML)的细胞中,近端APA导致AML1-AE融合基因3’UTR区域的缩短并提高AE基因的稳定性,促进白血病细胞的增长,影响患者的治疗和预后。这提示APA差异基因具有作为肿瘤治疗靶点和患者预后预测指标的潜在可能性。在临床应用中,患者的预后分层在用药选择、疗效评估、复发监测等方面具有重要指导作用。
随着高通量测序技术的发展,全转录组测序越来越多的应用于复杂疾病的临床诊断和治疗中,产生的大量测序数据也为深入挖掘疾病生物机制提供了基础。由于组学数据具有小样本、高维度的特征,为了获得更加稳定、可解释的模型,从大量数据中筛选与问题密切相关的特征子集,是生物信息数据挖掘中的重要步骤。
逐步回归是一种常用的变量选择方法,其将变量逐个引入模型或逐个从模型中去除,基于赤池信息准则(Akaike information criterion,AIC)等模型评价准则比较引入或删除变量前后的模型性能,并保留使模型性能提高的变量,重复该过程直到不能再引入有效的新变量,得到与预测结果显著相关的变量集。逐步回归适用于特征较多的数据,搜索方法包括前进法、后退法和混合法。其中,前进法和后退法通常只能达到局部最优,混合法可能引入贡献较小的特征,存在过拟合问题。
近年来,许多惩罚回归模型也被提出以解决变量回归模型中的不稳定性、计算困难性等问题,这些模型将无关变量的系数收缩至零,将系数非零的变量作为筛选的子集。最常使用的惩罚回归模型是LASSO,其将L1惩罚和线性模型结合使部分子集权重为0,相应特征被忽略。相比于LASSO回归模型,Breheny和Huang提出的基于非凸的平滑削边绝对偏离(Smoothly Clipped Absolute Deviation,SCAD)惩罚和最小最大凹惩罚(MimimaxConcave Penalty,MCP)方法,构建了更加稳定的变量选择回归模型,并提供了实现算法的R语言ncvreg包。
发明内容
本发明的目的在于提供一种基于可变聚腺苷酸化位点的疾病预后标志物筛选方法,从转录组测序数据中识别转录后调节相关的APA特征,筛选预后相关标志基因组,提供预后风险得分计算公式,基于数据辅助预测临床疾病预后。
为了达到上述目的,本发明采用以下技术方案予以实现:
步骤一,从样本全转录组测序数据中识别3’非翻译区可APA位点,计算不同转录本的表达量,并过滤表达量过低的APA位点;
步骤二,对步骤一所述的APA位点,通过单因素Cox回归分析初步筛选可能与预后相关的APA位点,将同一基因上所有APA位点的表达量相加作为该基因的表达量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110955838.6/2.html,转载请声明来源钻瓜专利网。