[发明专利]用于从压缩的基因组序列读段重建基因组参考序列的方法和系统有效
申请号: | 201780086529.1 | 申请日: | 2017-12-14 |
公开(公告)号: | CN110603595B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 克劳迪奥·阿尔贝蒂;穆罕默德·霍索·巴鲁克 | 申请(专利权)人: | 耶诺姆希斯股份公司 |
主分类号: | G16B30/00 | 分类号: | G16B30/00;G16B50/00;G06F21/62;H03M7/30 |
代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 徐颖聪 |
地址: | 瑞士*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 压缩 基因组 序列 重建 参考 方法 系统 | ||
本公开中描述的方法和设备包括依据描述所述参考基因组和与所述参考基因组先前比对的基因组序列之间差异的语法元素来表示参考基因组。借助语法元件的子集来描述每个比对的基因组序列。描述所有基因组序列的语法元素根据其统计性质按块分割。每个语法元素块被熵编码。然后,熵编码的块串联形成压缩的比特流。凭借语法元素表示参考基因组与比对的序列之间的差异,语法元素根据其统计性质按块分割,每个语法元素块被熵编码。这些熵编码的语法元素被嵌入描述比对的读段的语法元素的编码块的比特流中。所公开的方法使得能够在解码压缩的基因组序列时重建用于比对的参考基因组,同时保留对压缩的数据的随机访问的不同选项并且使得能够高效压缩。
相关申请的交叉引用
本申请要求2017年7月11日提交的专利申请PCT/US2017/041579和2017年2月14日提交的专利申请PCT/US17/17842的优先权和权益。
技术领域
本公开涉及比对的基因组序列读段的无损压缩,其中,使用关联的比对信息和参考基因组或其一些部分来比对所述基因组序列。基因组序列通常旨在作为称为核苷酸的分子的串联,以形成脱氧核糖核酸(DNA)或核糖核酸(RNA)的片段。本发明可以被应用于用于使用相同字母表对较短序列进行比对的符号的任何参考序列。
本发明应用于已经借助无参考压缩方法压缩的比对基因组序列。在这方面的初步尝试是在Voges,J.、Munderloh,M.、Ostermann,J.的“比对的下一代测序数据的预测编码”(2016年数据压缩会议(DCC))中或者Benoit,G.等人的“使用概率de Bruijn图进行高通量测序数据的无参考压缩”(BMC生物信息学,2015;16:288.)中描述的尝试,然而,本发明中解决了其中多个局限性。
在本公开的背景下,比对的基因组序列的无参考压缩包括创建通过交叠和串联被映射在用于比对的参考基因组的相邻或交叠区域中的基因组序列而构建的被称为“重叠群”的一个或多个局部参考序列。有关重叠群的详尽描述,请参见https://en.wikipedia.org/wiki/Contig。所述重叠群不需要被包括在压缩的比特流中,因为它们在解码端被重建为解码处理的一部分。一旦为已经在其中映射了一个或多个基因组序列的基因组区域构建了重叠群,就通过根据基因组描述符描述基因组序列并且用特定熵编码器压缩每个相同类型的基因组描述符块,来向所述基因组序列施加基于参考的压缩。这种方法能够实现比诸如GZIP、LZMA、BZ的通用压缩方案更好的压缩比,并且保留随机访问。
比对的基因组序列的基于参考的压缩是基于根据比对序列的映射位置以及相对于用于比对的一个或多个参考序列的差异来表示所述比对序列,并且仅对所述位置和差异进行编码。然而,这种方法允许实现非常高的压缩比(随着覆盖度大致线性增加,其中,术语覆盖度是指包含参考基因组的每个核苷酸的平均读段数量),编码和解码处理二者都需要使用用于比对和压缩的特定参考序列。该方法的缺点是,如果用于比对和压缩的参考序列在解码侧不可用(例如,由于缺乏参考基因组或其版本的唯一标识,或者倘若原始数据源不再可用),则压缩的内容无法恢复。基于包括用于存储或传输的压缩的表示中的参考基因组的解决方案将导致不利于压缩效率。
为了解决这种问题,存在在不使用用于比对的参考基因组的情况下实现对比对的基因组序列读段进行压缩和解压缩的无参考压缩方法。这些方法中的一些采用诸如GZIP、BZIP2、LZMA的通用压缩器,实现大约3:1的不良压缩比。更高效的方法是基于通过称为“组装”的处理,从比对的读段本身构建出一个或多个参考序列,在“组装”中,使用被映射在用于比对的参考基因组的相邻基因组间隔上的读段,通过找到共享的子序列并且串联它们来构建更长序列。从串联或合并较短序列而获得的较长序列被称为“重叠群”。这些方法包括来自Voges,J.、Munderloh,M.、Ostermann,J.的“比对的下一代测序数据的预测编码”(2016年数据压缩会议(DCC))中或者Benoit,G.等人的“使用概率de Bruijn图进行高通量测序数据的无参考压缩”(BMC生物信息学,2015;16:288.)的已引用的文献。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于耶诺姆希斯股份公司,未经耶诺姆希斯股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780086529.1/2.html,转载请声明来源钻瓜专利网。