[发明专利]利用长转录组测序结果装配基因组的方法及装置有效

专利信息
申请号: 201210256904.1 申请日: 2012-07-23
公开(公告)号: CN102789553A 公开(公告)日: 2012-11-21
发明(设计)人: 李炯棠;薛尉;汪金兔;祝雅萍;孙效文 申请(专利权)人: 中国水产科学研究院
主分类号: G06F19/20 分类号: G06F19/20
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 郭红丽
地址: 100141 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种利用长转录组测序结果装配基因组的方法及装置,该方法是将同一物种的转录组测序读段与基因组片段进行比对,去除仅比对到1个基因组片段的转录组测序读段,对保留下来的转录组测序读段上的查询区段以规定条件进行筛选,然后按照规定条件获得与保留下来的查询区段相关的区段连接,基于该区段连接对基因组片段进行连接,从而完成对基因组序列的组装。根据本发明的利用长转录组测序结果装配基因组的方法,能够利用长片段测序数据,包括现有公开的大量Sanger数据,从而能够利用长的转录组测序读段来组装基因组序列。
搜索关键词: 利用 转录 组测序 结果 装配 基因组 方法 装置
【主权项】:
一种利用长转录组测序结果装配基因组的方法,其特征在于,包括以下步骤:(1)将同一物种的转录组测序读段与基因组片段进行比对;(2)去除仅比对到1个基因组片段的转录组测序读段;(3)针对(2)中保留下来的各转录组测序读段,去除相似程度低的转录组测序读段;(4)针对(3)中保留下来的各转录组测序读段,分别在每一个转录组测序读段上,按照各查询区段的相对起始位置从小到大依次排列,并根据该排列顺序对各查询区段由小到大进行编号,然后以编号相对小的查询区段作为参考区段,分别将后续的查询区段与所述参考区段进行比较,保留符合下述两个条件中任意一个条件的后续的查询区段,去除下述两个条件都不符合的后续查询区段,ⅰ后续的查询区段的相对起始位置与参考区段的相对起始位置之差小于等于10,并且后续的查询区段的相对终止位置与参考区段的相对终止位置的差的绝对值小于10,ⅱ后续的查询区段的相对终止位置与所述参考区段的相对终止位置之差大于等于10,将保留下来的后续查询区段作为新参考区段,继续将该新参考区段后续的查询区段与该新参考区段进行比较,保留符合上述条件之一的后续查询区段,反复进行上述比较,直至该转录组测序读段上最后一个查询区段作为参考区段,对保留下来的各查询区段按照上述编号方法重新进行偏号,然后针对每一转录组测序读段,以编号相对小的查询区段作为参考区段,分别将后续的查询区段与所述参考区段进行比较,如果后续的查询区段的相对起始位置与参考区段的相对起始位置之差小于等于10,并且该后续的查询区段的相对终止位置和参考区段的相对终止位置的差的绝对值小于10,则去除该后续的查询区段,而保留不满足上述条件的后续查询区段,完成所有比较后,如果存在满足上述条件的后续的查询区段,则将该参考区段也去除, 接下来,将保留的后续查询区段作为新参考区段,继续将该新参考区段后续的查询区段与该新参考区段进行比较,以相同条件判断去除或保留该新参考区段和后续的查询区段,反复进行上述比较,直至该转录组测序读段上最后一个查询区段作为参考区段;(5)针对(4)中所保留下来的所有查询区段按照与(4)相同的编号方法进行编号,然后将每一转录组测序读段中编号相对小的查询区段作为起点区段,将其后续的所有查询区段分别与其进行比较,如果在后续的查询区段中存在相对起始位置与该起点区段的相对终止位置之差的绝对值小于30、且绝对起始位置与该起点区段的绝对终止位置之差小于200Kb的查询区段,则将该后续的查询区段和所述起点区段的组合作为一个区段连接保留下来,并且计算出这两个区段之间的距离,即该后续的查询区段的相对起始位置与所述起点区段的相对终止位置的差值,如果在后续的查询区段中不存在相对起始位置与起点区段的相对终止位置之差的绝对值小于30、且绝对起始位置与该起点区段的绝对终止位置之差小于200Kb的查询区段,则去除所述起点区段,然后以该起点区段后续的区段作为新的起点区段,以同样条件进行与上述相同的比较,以确定与所述新的起点区段相关的区段连接,并且如上所述地计算出这两个区段之间的距离,如果不存在与所述新的起点区段相关的区段连接,则去除所述新的起点区段,如此反复地进行比较,直至该转录组测序读段上最后一个查询区段作为起点区段,接下来,针对每个查询区段,根据计算的两个查询区段之间的距离,保留与该查询区段相关且两个区段之间的距离最小的区段连接,去除其余与该查询区段相关的区段连接;(6)将(5)中保留下来的每一个区段连接作为与其对应的两个基因组片段连接的支持证据;(7)将(6)中所保留下来的每个基因组片段分别作为起始基因组片段,并在与其连接的所有基因组片段中选择支持证据最多的基因组片段作为终止片段,形成一个基因组片段连接关系;(8)针对(7)中每个只能作为起始基因组片段的基因组片段,分别将其作为起始点,从只能连接在其他基因组片段之后作为终止基因组片段的基因组 片段,以及既能够连接在其他基因组片之前作为起始基因组片段,又能够连接在其他基因组片段之后作为终止基因组片段的基因组片段中,寻找可连接的基因组片段,形成基因组片段连接,将该基因组片段连接作为新的起始点,进一步如上所述那样寻找可连接的基因组片段,直至没有可连接的基因组片段为止,根据上述各基因组片段连接的前后顺序将各基因组片段连接组装成更长的基因组片段。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国水产科学研究院,未经中国水产科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210256904.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top