[发明专利]一种基因组组装方法有效
| 申请号: | 201811062858.5 | 申请日: | 2018-09-12 |
| 公开(公告)号: | CN109234267B | 公开(公告)日: | 2021-07-30 |
| 发明(设计)人: | 梁承志;杜会龙 | 申请(专利权)人: | 中国科学院遗传与发育生物学研究所 |
| 主分类号: | C12N15/10 | 分类号: | C12N15/10 |
| 代理公司: | 北京联创佳为专利事务所(普通合伙) 11362 | 代理人: | 郭防 |
| 地址: | 100101 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基因组 组装 方法 | ||
1.一种基因组组装方法,其特征在于,包括以下步骤:
S1,将所有的已知DNA序列片段进行相互比较,找出所有的具有相似重叠区域的重叠读段对;其中,所述的已知DNA序列包括锚定序列片段集合A和随机测序读段集合B;所述的锚定序列片段集合A为从随机测序读段集合B中选出的读段集合A3中的一个或几个集合;所述的将所有的已知DNA序列片段进行相互比较,是将所有的测序读段进行相互比较;
S2,从锚定序列片段集合A中一个锚定序列片段的自由末端开始,利用该锚定序列片段的重叠读段对所述锚定序列片段的自由末端进行延伸;延伸时,从随机测序读段集合B找出与被延伸末端重叠的所有读段,形成候选延伸读段集合C,再从集合C中选择一条有效延伸读段,通过重叠区域对被延伸末端进行延伸,即产生了一个待延伸的新末端,重复本步骤直至序列延伸终止,最终形成一条组装好的连续序列片段;
S3,选择锚定序列片段集合A中一个尚未使用的锚定序列片段的自由末端,回到步骤S2,重复步骤S2-S3,直到锚定序列片段集合A中锚定序列片段的末端全部完成延伸为止,最终产生一个连续序列片段集合D;
S4,去除连续序列片段集合D中的冗余,最终形成一个组装好的基因组。
2.根据权利要求1所述的一种基因组组装方法,其特征在于,步骤S1中所述的从随机测序读段中选出读段集合A3包括单拷贝读段集合A31、边界读段集合A32和部分或全部其余的随机测序读段组成的备选读段集合A33中的一个或几个集合。
3.根据权利要求2所述的一种基因组组装方法,其特征在于,单拷贝读段通过以下方法选取:对于每条读段,分别计算其两个末端的平均覆盖深度,即被重叠读段覆盖的平均次数;若每个读段其两个末端的平均覆盖深度在预设阈值Y1的范围内,则把此读段分成为长度为L,大小一致,重叠长度为L/2的窗口,计算每个窗口的平均覆盖深度;若是没有一个窗口的平均覆盖深度低于预设阈值Y2,则选此读段为有效单拷贝读段;所选的有效单拷贝读段形成单拷贝读段集合A31;边界读段的选取方法如下:对于每条读段,分别计算其两个末端的平均覆盖深度,即被重叠读段覆盖的平均次数;若是有一个末端重叠的读段的平均覆盖深度高于预设阈值Y3,而另一个末端重叠的读段的平均覆盖深度低于预设阈值Y3但不低于预设阈值Y4,而且在平均覆盖深度低的一端有多个读段具有未比对悬空末端,则此读段被定为边界读段;所选的边界读段形成边界读段集合A32。
4.根据权利要求1所述的一种基因组组装方法,其特征在于,所述步骤S2中序列延伸的终止条件是:没有找到有效重叠读段;或是被延伸末端跟一个终止锚定序列片段的末端有重叠;或是对于从单拷贝序列末端起始的延伸,跟被延伸末端重叠的读段数目少于预设阈值Y6或超出了预设阈值Y7,或是在跟被延伸末端有重叠的读段中具有悬空末端的条数超出了预设阈值Y5;或是对于从重复序列末端起始的延伸,延伸序列的长度超过了预设阈值Y8。
5.根据权利要求1所述的一种基因组组装方法,其特征在于,所述步骤S2中,在选取锚定序列片段集合A中的读段集合A3中的一个读段作为起始序列时,若是单拷贝读段集合A31或边界读段集合A32不是空集,则备选读段集合A33中的读段不能作为起始序列;在选取一个读段作为起始序列时,选取可选集合中最长的一个读段;读段集合A3中的读段不作为终止锚定序列片段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院遗传与发育生物学研究所,未经中国科学院遗传与发育生物学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811062858.5/1.html,转载请声明来源钻瓜专利网。





