[发明专利]基于信息论基因转录本组装与量化方法及系统有效
申请号: | 201711377630.0 | 申请日: | 2017-12-19 |
公开(公告)号: | CN107944226B | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 索津莉;鲍峰;戴琼海 | 申请(专利权)人: | 清华大学 |
主分类号: | G16B30/20 | 分类号: | G16B30/20 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信息论 基因 转录 组装 量化 方法 系统 | ||
本发明提出了一种基于信息论基因转录本组装与量化方法及系统,其中,方法包括:将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测;在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合;根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与峰度估计。该发明具有能够不依赖于外部的基因位置标记,基因组装准确性显著提高,提升测序精度的优点。
技术领域
本发明涉及计算生物学技术领域,尤其涉及一种基于信息论基因转录本组装与量化方法及系统。
背景技术
随着下一代基因测序技术的发展,基因生物学研究迫切需要有效的量化方法,来对高通量RNA测序的内在基因调控与转录情况进行解析。在RNA层面,转录本的识别与丰度估计是评估转录功能差异性的重要方法,在新一代测序研究中能揭示疾病潜在的机理,发现新的生物结论。转录本组装是从大规模测序读段中有结构的恢复基因所表达出来的转录本变体。丰度估计是对发现的转录本的表达水平进行量化估计。然而,要完成这两项任务,仅有的数据是从转录本片段中推测完整的测序信息。从有限的观测中获取完整的数据解析本质上是一个病态的数学问题。由于缺失信息的存在,在得到对结果中会出现显著的不确定性。
传统的转录本发现与丰度量化方法采用的是基于多种不同考虑建立的参数统计方法,比如概率生成模型护着是线性回归模型。尽管他们的数学表示存在很大的差别,内在的数学概念仍然是同属于相似的数据拟合类别。从转录本到RNA测序的读段这个测序过程中,会由于信息缺失和数据模糊引入显著的不确定水平。例如,转录本元素的不确定性,RNA测序读段映射的多样性,读段在转录本上分布的分均一性等,这些都是很难控制的不确定元素。当数据拟合任务遇到众多不确定性时,在最终估计结果中会引入无法避免的偏差。
许多数据拟合方法依赖于外部的信息来减少数据的不确定性,可能需要部分或者全部的基因组注释来指导转录本组装。但是目前相关技术中的方法的精度有限,需要进一步提升。而且尽管这些方法的数学基础是非常相似的,但是被这些不同方法发现的转录本存在着较大的差异。因此,仍然需要更精确与通用的无需基因注释的转录本推断与量化方法。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一方面目的在于提出一种能够不依赖于外部的基因位置标记,基因组装准确性显著提高,提升测序精度的基于信息论基因转录本组装与量化方法。
本发明另一方面目的在于提出一种基于信息论基因转录本组装与量化系统。
为达到上述目的,本发明一方面的实施例提出了一种基于信息论基因转录本组装与量化方法,包括以下步骤:将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测;在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合;根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与丰度估计。
根据本发明实施例的基于信息论基因转录本组装与量化方法,通过对齐测序的读段与参照的基因组,根据结果预测初始的基因与转录本的开始位置与终止位置,并建立候选转录本集合,根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与丰度估计。该方法不依赖于外部的基因位置标记,基因组装准确性显著提高,提升测序精度。
在一些示例中,所述对初始的基因进行预测,包括:子外显子发现、基因边界预测和基因结构预测。
在一些示例中,所述在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合,包括:根据所述有向图翻译基因剪切变体,以模拟可能的转录本,得到候选转录本集合。
在一些示例中,所述根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与丰度估计,包括:根据目标函数对候选转录本集合进行转录本预测与丰度估计,其中,所述目标函数为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711377630.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基因高通量测序数据突变检测方法
- 下一篇:一种遗传图谱的标记校正方法及装置