[发明专利]一种将多个重叠组装结果合并的方法有效
申请号: | 201710720525.6 | 申请日: | 2017-08-21 |
公开(公告)号: | CN107590363B | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 邬三毛;肖世俊;郭文浒;陈楠生 | 申请(专利权)人: | 武汉菲沙基因信息有限公司 |
主分类号: | G16B30/20 | 分类号: | G16B30/20 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 杨立;李蕾 |
地址: | 430075 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 将多个 重叠 组装 结果 合并 方法 | ||
本发明涉及一种将多个重叠组装结果合并的方法,其特征在于,包括以下步骤:获得多个重叠组装结果;根据所述多个重叠组装结果的数据特征确定前景和背景;将所述前景与所述背景进行比对,得到比对结果;根据所述比对结果,将所述前景与所述背景合并,即得到合并后的重叠组装结果。通过本发明的方法,可大大提高组装过程中的连接效率,并在一定程度上提高连接准确率,并且本发明的可以广泛适用于微生物、动物、植物的基因组辅助组装,其运行速度也比同类方法和软件更快。
技术领域
本发明涉及基因组测序与组装领域,更特别地,涉及一种将多个重叠组装结果合并的方法
背景技术
由于高通量测序产生的下机结果并非完整连续的基因组,而是一系列末端有重叠的片段,所以必须通过特定的组装算法和软件才能使这些片段组装成相对完整的基因组。因此,组装软件和算法对高通量测序至关重要。
由于原始下机的数据量一般都很大(例如100X人的基因组约为300G),并且基因组本身存在很多复杂区域,使得组装算法的设计变成了一个非常困难的领域。目前,虽然已经有很多组装的算法和软件可供使用,但其结果往往不够令人满意,原始数据中仍有很多有价值的信息未被组装算法充分挖掘。此外,为了得到一个较好的组装结果,往往不仅需要使用同一个软件尝试多种不同的参数,而且还要尝试多个不同软件,最终从这些结果中选择一个N50最长,序列准确性最高的版本。然而,即使是测试了如此之多的参数和软件,我们还是很难得到理论上最优的结果。为了得到更长的N50,我们需要以牺牲一定程度的准确性为代价,而为了得到较高的准确性,我们将很难同时获得最长的N50,准确性和连续性的矛盾使二者很难兼得。另一方面,我们用多种参数和软件组出的多个结果中,最终只保留了一个,其他所有的次优结果是被丢弃不用的,这实际上也是一种对计算资源和人力成本的浪费。
基于以上这些事实,我们可以总结出目前组装过程存在的四个问题:①组装结果还有进行一步提升空间,原始数据信息未被充分挖掘;②无法解决准确性和连续性的矛盾;③对复杂数据的适应性还不够强,导致使用人员不得不进行大量调参测试。④由于不同算法的组装策略不同,可能挖掘出不同的信息,这些信息有互补性,但是没有任何任何一个算法能完全整合这些信息。
因此,需要一种能够将多个组装软件的组装结果合并的方法。
发明内容
为解决以上问题,本发明提供了一种将多个重叠组装结果合并的方法,包括以下步骤:
S1:获得多个重叠组装结果;
S2:根据所述多个重叠组装结果的数据特征确定前景和背景;
S3:将所述前景与所述背景进行比对,得到比对结果;
S4:根据所述比对结果,将所述前景与所述背景合并,即得到合并后的重叠组装结果。
通过本发明的方法,可大大提高组装过程中的连接效率,并在一定程度上提高连接准确率,并且本发明的可以广泛适用于微生物、动物、植物的基因组辅助组装,其运行速度也比同类方法和软件更快。
在一个实施方案中,所述重叠组装结果为至少三个;
在S2中,将所述重叠组装结果中的一个确定为所述前景,将其余重叠组装结果确定为背景,并根据所述多个背景的数据特征确定每个所述背景与所述前景的合并顺序;
按所述合并顺序,将所述前景依次与相应的背景进行比对、合并,每次合并后的重叠组装结果作为下一次比对、合并的前景。
一般情况下,对多个不同的重叠组装结果进行合并,以集合不同的组装方法和软件的优点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉菲沙基因信息有限公司,未经武汉菲沙基因信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710720525.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种磨针机
- 下一篇:一种可对钢球冷镦模具进行研磨的车床