[发明专利]一种基于长片段进行骨架组装的方法有效
申请号: | 201710304027.3 | 申请日: | 2017-05-03 |
公开(公告)号: | CN107273716B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 邬三毛;郭文浒;肖世俊;陈楠生 | 申请(专利权)人: | 武汉菲沙基因信息有限公司 |
主分类号: | G16B30/20 | 分类号: | G16B30/20 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立;朱毅 |
地址: | 430075 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 片段 进行 骨架 组装 方法 | ||
1.一种基于长片段进行骨架组装的方法,其特征在于,包括以下步骤:
S1:获得长片段序列数据和基因组拼接结果,得到基因组预估大小、基因组拼接大小以及拼接块数量;
S2:根据所述长片段序列数据和基因组拼接结果计算mate pair之间的插入长度范围;
S3:根据所述长片段序列数据和所述插入长度范围生成mate pair文库;
S4:用S3得到的mate pair文库对所述基因组拼接结果进行骨架组装,得到骨架;
S2包括以下步骤:
S21:确定插入长度最小值minIns:
S22:确定插入长度最大值maxIns:X=2*avgL2/avgL1*contigN50,其中,avgL1表示拼接块的平均长度,avgL2表示所述长片段的平均长度,当X小于或等于所述长片段中最长片段的长度时,则maxIns=X,当X大于所述长片段中最长片段的长度,则maxIns为所述长片段中最长片段的长度。
2.根据权利要求1所述的方法,其特征在于,所述长片段序列数据通过三代测序得到。
3.根据权利要求1所述的方法,其特征在于,所述基因组拼接结果通过使用二代测序数据或三代测序数据拼接得到。
4.根据权利要求1所述的方法,其特征在于,S3中所述的mate pair文库为精确定长文库、定长文库和变长文库中的一种或多种组合,其中,所述精确定长文库为插入长度不同的mate pair的双端序列被分开到不同子文库的文库,每个子文库中的mate pair的插入长度都相等;所述定长文库为包含多套已知插入长度的mate pair的文库;所述变长文库为matepair的插入长度没有限定。
5.根据权利要求4所述的方法,其特征在于,所述精确定长文库和定长文库中的matepair通过以下方法得到:
S31:确定插入长度和mate pair序列长度;
S32:以插入长度加2倍的mate pair序列长度的和为窗口,在所述长片段上从5’端开始向3’端进行步移,窗口两端的mate pair序列长度的序列即为一组mate pair,步长根据覆盖深度来设定,最后一个步移距离不足时,以剩余距离作为步长。
6.根据权利要求4所述的方法,其特征在于,所述变长文库中的Mate pair通过以下方法得到:
S33:确定mate pair序列长度;
S34:以所述长片段的两端为第一组mate pair,窗口从两端向中间步移,步长根据覆盖深度来设定。
7.根据权利要求1-6中任一项所述的方法,其特征在于,在S3中对所述基因组拼接结果进行分析,预估缺口的大小,根据预估的缺口大小来确定在所述长片段上生成mate pair的区域。
8.根据权利要求1-6中任一项所述的方法,其特征在于,在S3中同时使用多套长片段数据来生成mate pair,每套长片段数据设置相同或不同的mate pair文库生成方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉菲沙基因信息有限公司,未经武汉菲沙基因信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710304027.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种检测方法及装置
- 下一篇:一种肺癌血清基因的检测模型及其构建方法和应用