[发明专利]一种基因组组装方法有效
| 申请号: | 201811062858.5 | 申请日: | 2018-09-12 |
| 公开(公告)号: | CN109234267B | 公开(公告)日: | 2021-07-30 |
| 发明(设计)人: | 梁承志;杜会龙 | 申请(专利权)人: | 中国科学院遗传与发育生物学研究所 |
| 主分类号: | C12N15/10 | 分类号: | C12N15/10 |
| 代理公司: | 北京联创佳为专利事务所(普通合伙) 11362 | 代理人: | 郭防 |
| 地址: | 100101 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基因组 组装 方法 | ||
本发明公开了一种基因组组装方法,包括:序列比较、序列延伸、完成延伸和去除冗余四个步骤。将全基因组的组装在操作上分成两个主要步骤:组装单拷贝序列和组装剩余的序列,简化了实施过程,使整个方法变得快速高效,不易犯错,并且能够大大提高组装序列片段的连续性,提高了组装质量。通过利用本发明的方法组装全基因组序列,快速高效,也更有利于复原整条染色体及整个基因组的序列。本发明的基因组组装方法还可以用于基因组序列中空白区域的序列填充,特别是通过结合基因组光学图谱信息或是染色体分组排序信息,组装效果还会大大提高;以及用于判断任意两个序列之间是否有连接,或是估算两个相邻序列之间的距离。
技术领域
本发明涉及一种基因组组装方法,属于基因组组装技术领域。
背景技术
测序仪通过对基因组片段的测序产生了随机的读出序列片段(读段)。这些读段在基因组上的分布是随机的。基因组组装的过程就是把这些读段按照正确的顺序排列和连接,组装成碱基连续的DNA序列片段(连续片段),最终复原整条染色体及整个基因组的序列。这个组装的过程一般包括三步:连续片段的组装,有缺口的非连续片段的组装,缺口的补齐。基因组组装的困难来源于基因组存在的大量重复序列(即长度不定、序列相似或一样的两个/段或多个/段序列)。此外测序仪在实际测出读段的过程中会产生错误,导致原来不一样的序列变得一样。若是没有重复序列和测序错误,基因组的组装就是一个很简单的任务。重复序列在基因组中可分为两个大类:串联重复序列和散布重复序列。串联重复是一组头尾直接相连的非常相似的重复单位组成的序列,通过局部重复产生。典型的串联重复序列包括rDNA、着丝粒重复序列等。散布重复序列是分布于基因组中不同位置的非局部重复序列。在有些重复序列中,串联重复和非串联重复序列都有,这些区域很长,形成复杂重复序列。测序产生的来源于不同重复序列拷贝的读段具有序列上的相似性。目前单分子测序读段的长度N50一般大于10-15kb,最长达到了100kb以上。若是一个重复序列加上其两端的单拷贝序列一起被一条读段全部覆盖,则这个区域不存在组装的问题。当前需要解决的重点是超出了读段平均或N50长度的重复序列的组装问题。但是由于重复序列的存在,而且由于测序错误,导致单拷贝序列的组装在现有方法中也面临组装效率不高的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院遗传与发育生物学研究所,未经中国科学院遗传与发育生物学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811062858.5/2.html,转载请声明来源钻瓜专利网。





