[发明专利]利用长转录组测序结果装配基因组的方法及装置有效
申请号: | 201210256904.1 | 申请日: | 2012-07-23 |
公开(公告)号: | CN102789553A | 公开(公告)日: | 2012-11-21 |
发明(设计)人: | 李炯棠;薛尉;汪金兔;祝雅萍;孙效文 | 申请(专利权)人: | 中国水产科学研究院 |
主分类号: | G06F19/20 | 分类号: | G06F19/20 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭红丽 |
地址: | 100141 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种利用长转录组测序结果装配基因组的方法及装置,该方法是将同一物种的转录组测序读段与基因组片段进行比对,去除仅比对到1个基因组片段的转录组测序读段,对保留下来的转录组测序读段上的查询区段以规定条件进行筛选,然后按照规定条件获得与保留下来的查询区段相关的区段连接,基于该区段连接对基因组片段进行连接,从而完成对基因组序列的组装。根据本发明的利用长转录组测序结果装配基因组的方法,能够利用长片段测序数据,包括现有公开的大量Sanger数据,从而能够利用长的转录组测序读段来组装基因组序列。 | ||
搜索关键词: | 利用 转录 组测序 结果 装配 基因组 方法 装置 | ||
【主权项】:
一种利用长转录组测序结果装配基因组的方法,其特征在于,包括以下步骤:(1)将同一物种的转录组测序读段与基因组片段进行比对;(2)去除仅比对到1个基因组片段的转录组测序读段;(3)针对(2)中保留下来的各转录组测序读段,去除相似程度低的转录组测序读段;(4)针对(3)中保留下来的各转录组测序读段,分别在每一个转录组测序读段上,按照各查询区段的相对起始位置从小到大依次排列,并根据该排列顺序对各查询区段由小到大进行编号,然后以编号相对小的查询区段作为参考区段,分别将后续的查询区段与所述参考区段进行比较,保留符合下述两个条件中任意一个条件的后续的查询区段,去除下述两个条件都不符合的后续查询区段,ⅰ后续的查询区段的相对起始位置与参考区段的相对起始位置之差小于等于10,并且后续的查询区段的相对终止位置与参考区段的相对终止位置的差的绝对值小于10,ⅱ后续的查询区段的相对终止位置与所述参考区段的相对终止位置之差大于等于10,将保留下来的后续查询区段作为新参考区段,继续将该新参考区段后续的查询区段与该新参考区段进行比较,保留符合上述条件之一的后续查询区段,反复进行上述比较,直至该转录组测序读段上最后一个查询区段作为参考区段,对保留下来的各查询区段按照上述编号方法重新进行偏号,然后针对每一转录组测序读段,以编号相对小的查询区段作为参考区段,分别将后续的查询区段与所述参考区段进行比较,如果后续的查询区段的相对起始位置与参考区段的相对起始位置之差小于等于10,并且该后续的查询区段的相对终止位置和参考区段的相对终止位置的差的绝对值小于10,则去除该后续的查询区段,而保留不满足上述条件的后续查询区段,完成所有比较后,如果存在满足上述条件的后续的查询区段,则将该参考区段也去除, 接下来,将保留的后续查询区段作为新参考区段,继续将该新参考区段后续的查询区段与该新参考区段进行比较,以相同条件判断去除或保留该新参考区段和后续的查询区段,反复进行上述比较,直至该转录组测序读段上最后一个查询区段作为参考区段;(5)针对(4)中所保留下来的所有查询区段按照与(4)相同的编号方法进行编号,然后将每一转录组测序读段中编号相对小的查询区段作为起点区段,将其后续的所有查询区段分别与其进行比较,如果在后续的查询区段中存在相对起始位置与该起点区段的相对终止位置之差的绝对值小于30、且绝对起始位置与该起点区段的绝对终止位置之差小于200Kb的查询区段,则将该后续的查询区段和所述起点区段的组合作为一个区段连接保留下来,并且计算出这两个区段之间的距离,即该后续的查询区段的相对起始位置与所述起点区段的相对终止位置的差值,如果在后续的查询区段中不存在相对起始位置与起点区段的相对终止位置之差的绝对值小于30、且绝对起始位置与该起点区段的绝对终止位置之差小于200Kb的查询区段,则去除所述起点区段,然后以该起点区段后续的区段作为新的起点区段,以同样条件进行与上述相同的比较,以确定与所述新的起点区段相关的区段连接,并且如上所述地计算出这两个区段之间的距离,如果不存在与所述新的起点区段相关的区段连接,则去除所述新的起点区段,如此反复地进行比较,直至该转录组测序读段上最后一个查询区段作为起点区段,接下来,针对每个查询区段,根据计算的两个查询区段之间的距离,保留与该查询区段相关且两个区段之间的距离最小的区段连接,去除其余与该查询区段相关的区段连接;(6)将(5)中保留下来的每一个区段连接作为与其对应的两个基因组片段连接的支持证据;(7)将(6)中所保留下来的每个基因组片段分别作为起始基因组片段,并在与其连接的所有基因组片段中选择支持证据最多的基因组片段作为终止片段,形成一个基因组片段连接关系;(8)针对(7)中每个只能作为起始基因组片段的基因组片段,分别将其作为起始点,从只能连接在其他基因组片段之后作为终止基因组片段的基因组 片段,以及既能够连接在其他基因组片之前作为起始基因组片段,又能够连接在其他基因组片段之后作为终止基因组片段的基因组片段中,寻找可连接的基因组片段,形成基因组片段连接,将该基因组片段连接作为新的起始点,进一步如上所述那样寻找可连接的基因组片段,直至没有可连接的基因组片段为止,根据上述各基因组片段连接的前后顺序将各基因组片段连接组装成更长的基因组片段。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国水产科学研究院,未经中国水产科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210256904.1/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用