[发明专利]一种基于二代和三代ONT技术进行宏基因组组装方法在审
| 申请号: | 202010255667.1 | 申请日: | 2020-04-02 |
| 公开(公告)号: | CN111564181A | 公开(公告)日: | 2020-08-21 |
| 发明(设计)人: | 郑洪坤;龚雪情;王凡 | 申请(专利权)人: | 北京百迈客生物科技有限公司 |
| 主分类号: | G16B30/20 | 分类号: | G16B30/20;G16B30/10 |
| 代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 白淑君 |
| 地址: | 101300 北京市顺义区南*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 二代 ont 技术 进行 宏基 组装 方法 | ||
本发明实施例提供一种基于二代和三代ONT技术进行宏基因组组装方法,方法包括:利用三代ONT测序的reads进行自身比对,找到不同数据间的重叠部分overlap;根据不同数据间的重叠部分overlap对不同数据进行组装,得到组装后的数据;利用三代数据对所述组装后的数据进行自身纠错;利用二代测序继续进行纠错,得到最终的组装结果。本发明实施例先利用ONT三代测序的reads进行自身比对,找到数据间的overlap进行组装,组装后利用三代数据进行自身纠错,之后再利用二代测序继续进行纠错,从而提高组装结果的准确性。
技术领域
本发明属于生物学技术领域,尤其涉及一种基于二代和三代ONT技术进行宏基因组组装方法。
背景技术
宏基因组学避开纯培养技术探知微生物的多样性及其功能,为我们提供了一种发现新基因、开发新的微生物活性物质和研究微生物群落结构及其功能的新技术。二代测序具有高质量的数据、较低的样品需求以及简单的操作流程等优点,但是读长短,扩增存在偏好性,为组装带来了很大的挑战。三代ONT测序实现了读长长,同时也降低了测序成本,但测序不够精准,三代ONT与二代结合将很大程度提高组装长度。
发明内容
为克服上述现有问题或者至少部分地解决上述问题,本发明实施例提供一种基于二代和三代ONT技术进行宏基因组组装方法。
本发明实施例提供了一种基于二代和三代ONT技术进行宏基因组组装方法,包括:
利用三代ONT测序的reads进行自身比对,找到不同数据间的重叠部分overlap;
根据不同数据间的重叠部分overlap对不同数据进行组装,得到组装后的数据;
利用三代数据对所述组装后的数据进行自身纠错;
利用二代测序继续进行纠错,得到最终的组装结果。
在上述技术方案的基础上,本发明实施例还可以做如下改进。
可选的,所述利用三代ONT测序的reads进行自身比对,找到不同数据间的重叠部分overlap包括:
利用minimap2软件通过将测序数据分成多个k长度的kmer组;
采用minimizers方法从多个相邻的kmers组里挑选出z值最小的两个kmer组;
如果两个kmer组序列间具有overlap重叠部分,则这两个序列为具有相同的代表性kmer;
通过使用单链聚类的方法使具有共线性的minimizers为一组kmer;
通过求解最长递增序列问题得到最大的共线性minimizers子集,即minimap的map结果。
可选的,所述根据不同数据间的重叠部分overlap对不同数据进行组装,得到组装后的数据包括:
利用miniasm-master软件通过检查read之间的映射关系,并去除接头和嵌合体;
基于与其他所有reads之间满足预设条件映射关系的每一条read,计算所述read的每一个碱基覆盖度,选择覆盖度不小于3的最长区域;
修剪过reads后,通过分析存在overlap的两条序列之间的map关系构建组装图;
利用miniasm方法去除transitive edges,修剪包含少于4个reads的unitigs,弹出小气泡;
将相邻的多个组装图串联合并成一个unitig,所述该unitig为多个相邻的可合并的组装图中的最大路径。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百迈客生物科技有限公司,未经北京百迈客生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010255667.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地线直流融冰装置
- 下一篇:一种紧急呼救与响应方法及系统





