[发明专利]基于信息论基因转录本组装与量化方法及系统有效
申请号: | 201711377630.0 | 申请日: | 2017-12-19 |
公开(公告)号: | CN107944226B | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 索津莉;鲍峰;戴琼海 | 申请(专利权)人: | 清华大学 |
主分类号: | G16B30/20 | 分类号: | G16B30/20 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张润 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信息论 基因 转录 组装 量化 方法 系统 | ||
1.一种基于信息论基因转录本组装与量化方法,其特征在于,包括以下步骤:
将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测;
在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合;
根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与丰度估计。
2.根据权利要求1所述的基于信息论基因转录本组装与量化方法,其特征在于,所述对初始的基因进行预测,包括:子外显子发现、基因边界预测和基因结构预测。
3.根据权利要求1所述的基于信息论基因转录本组装与量化方法,其特征在于,所述在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合,包括:
根据所述有向图翻译基因剪切变体,以模拟可能的转录本,得到候选转录本集合。
4.根据权利要求1所述的基于信息论基因转录本组装与量化方法,其特征在于,所述根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与丰度估计,包括:
根据目标函数对候选转录本集合进行转录本预测与丰度估计,其中,所述目标函数为:
max I(T;R|Θ)+λL(Θ;R),
其中,L(Θ;R)=logP(R|Θ)为似然项,λ平衡了不确定性与似然的相对重要性,T是候选转录本集合,R是观测到的测序读段集合,Θ是参数集,
5.根据权利要求4所述的基于信息论基因转录本组装与量化方法,其特征在于,
其中,与定义为经过k次选择之后选择与未选择的转录本,转录本tk+1通过如下方差来进行(k+1)次选择,所述方差为:
其中,当所述目标函数达到最大值时前向选择终止。
6.一种基于信息论基因转录本组装与量化系统,其特征在于,包括:
初始的基因预测模块,用于将测序的读段与参照的基因组对齐,并根据测序的读段与参照的基因组对齐结果对初始的基因与转录本的开始位置与终止位置进行预测;
候选转录本集合获取模块,用于在预测完之后,建立有向图以模拟可能的转录本,得到候选转录本集合;
转录本预测与丰度估计模块,用于根据最大化信息传输容量的方式对候选转录本集合进行转录本预测与丰度估计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711377630.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基因高通量测序数据突变检测方法
- 下一篇:一种遗传图谱的标记校正方法及装置