[发明专利]使用三代序列优化二代组装结果的方法和装置有效
申请号: | 201710093627.X | 申请日: | 2017-02-21 |
公开(公告)号: | CN108460245B | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 贺丽娟;邓天全;刘亚斌;杨林峰;高强 | 申请(专利权)人: | 深圳华大基因科技服务有限公司 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B30/20 |
代理公司: | 深圳鼎合诚知识产权代理有限公司 44281 | 代理人: | 孙银行;彭家恩 |
地址: | 518083 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 序列 优化 二代 组装 结果 方法 装置 | ||
1.一种使用三代序列优化二代组装结果的方法,其特征在于,所述方法包括:
获取二代组装结果和三代组装结果,其中所述二代组装结果包括重叠群序列和所述重叠群序列之间的间隙序列;
以所述三代组装结果为参考序列,将所述二代组装结果比对到所述参考序列;
获取所述二代组装结果的间隙序列两侧的重叠群序列中比对到所述参考序列和未比对到所述参考序列的序列;
将所述未比对到所述参考序列的序列替换为间隙序列,使得所述二代组装结果的间隙序列延长,得到新的间隙序列;
对所述新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果。
2.根据权利要求1所述的方法,其特征在于,所述三代数据包括原始数据、纠错数据或组装结果。
3.根据权利要求1所述的方法,其特征在于,所述获取所述未比对到所述参考序列的序列包括:选定比对块长度和容错率,对所述间隙序列两侧的重叠群序列进行延伸,在容错允许的条件下延伸至所述比对块长度内的碱基完全比对到所述参考序列,则停止延伸,得到所述未比对到所述参考序列的序列。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:验证所述新的间隙序列的长度是否大于第一预设长度,若是则恢复至延长之前的间隙序列,若否则保持所述新的间隙序列。
5.根据权利要求4所述的方法,其特征在于,所述第一预设长度为三代测序平均长度。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:验证所述新的间隙序列的长度是否小于第二预设长度,若是则延长至所述第二预设长度,若否则保持所述新的间隙序列。
7.根据权利要求6所述的方法,其特征在于,所述第二预设长度是所述补洞步骤中能够识别的最短间隙长度。
8.一种用于使用三代序列优化二代组装结果的装置,其特征在于,所述装置包括:
第一获取装置,用于获取二代组装结果和三代组装结果,其中所述二代组装结果包括重叠群序列和所述重叠群序列之间的间隙序列;
比对装置,用于以所述三代组装结果为参考序列,将所述二代组装结果比对到所述参考序列;
第二获取装置,用于获取所述二代组装结果的间隙序列两侧的重叠群序列中比对到所述参考序列和未比对到所述参考序列的序列;
替换装置,用于将所述未比对到所述参考序列的序列替换为间隙序列,使得所述二代组装结果的间隙序列延长,得到新的间隙序列;
补洞装置,用于对所述新的间隙序列,使用三代数据进行补洞得到优化后的二代组装结果。
9.根据权利要求8所述的装置,其特征在于,所述三代数据包括原始数据、纠错数据或组装结果。
10.根据权利要求8所述的装置,其特征在于,所述获取所述未比对到所述参考序列的序列包括:选定比对块长度和容错率,对所述间隙序列两侧的重叠群序列进行延伸,在容错允许的条件下延伸至所述比对块长度内的碱基完全比对到所述参考序列,则停止延伸,得到所述未比对到所述参考序列的序列。
11.根据权利要求8所述的装置,其特征在于,还包括验证装置,用于在替换处理和补洞处理之间,验证所述新的间隙序列的长度是否大于第一预设长度,若是则恢复至延长之前的间隙序列,若否则保持所述新的间隙序列。
12.根据权利要求11所述的装置,其特征在于,所述第一预设长度为三代测序平均长度。
13.根据权利要求11所述的装置,其特征在于,所述验证装置还用于验证所述新的间隙序列的长度是否小于第二预设长度,若是则延长至所述第二预设长度,若否则保持所述新的间隙序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大基因科技服务有限公司,未经深圳华大基因科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710093627.X/1.html,转载请声明来源钻瓜专利网。