[发明专利]下一代测序数据的存储、传输和压缩在审
申请号: | 201680042553.0 | 申请日: | 2016-05-02 |
公开(公告)号: | CN107851118A | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | 达恩·萨德;沙伊·卢布林尔;阿里·凯舍特;埃兰·西格尔;伊塔·西拉 | 申请(专利权)人: | 基因福米卡数据系统有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F19/22;G06F19/28 |
代理公司: | 北京金思港知识产权代理有限公司11349 | 代理人: | 邵毓琴 |
地址: | 以色列拉*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 下一代 序数 存储 传输 压缩 | ||
对临时申请的优先权引用
本申请要求由Shai Lubliner、Arie Keshet和Eran Segal于2015年5月21日提交的、名称为“COMPRESSION OF GENOMICS FILES(基因组文件的压缩)”的美国临时申请No.62/164,611的优先权,由此将该申请的内容全部结合在本文中。
本申请还要求由发明人Danny Sade和Arie Keshet于2015年5月21日提交的、名称为“STORAGE OF COMPRESSED GENOMICS FILES(压缩基因组文件的存储)”的美国临时申请No.62/164,651的优先权,由此将该申请的内容全部结合在本文中。
技术领域
本发明涉及下一代测序数据的高效存储和传输。
背景技术
在过去的十年里,技术的巨大进步和下一代测序(NGS)的采用使得测序成本迅速下降到在2015年人类全基因组高覆盖度测序的价格为$1,000的程度。与此同时,规模也快速发展,在2014年就已经测序了228,000个个体的基因组。近年来,全球NGS容量每7个月就翻一翻,并且预计在短期到中期的将来将继续每12个月翻一翻。
NGS到2025年正以预计每年增加至2-40艾字节(exabyte)的速率生成原始数据,这使所有其它科学和技术领域都黯然失色。然而,这些原始数据在意味着通过下游处理而进行还原的同时还广泛地共享并几乎总是进行存档。因此,这些原始数据的存储、传输和管理给NGS的继续发展带来了技术和经济上的挑战。数据压缩已经被证明在许多技术领域中都是极有价值的工具,并且它将在NGS中起到关键作用。
原生NGS数据格式
大多数NGS数据都根据少数几个事实标准之一存储在文件中。参照图1,图1是示例性FASTQ机器输出读段(read)、示例性比对(alignment)以及代表该示例性比对的示例性SAM文件的现有技术图示。
FASTQ是用于存储NGS机器的输出数据的事实标准文件格式。FASTQ文件是基于文本的,并且每个机器输出读长都由四个文本行代表,如图1所示。第一行以字符“@”开始,随后是读段标识符和可选的描述。第二行包含读段的碱基—A、C、G、T或N(未确定)。第三行以字符“+”开始,该字符“+”随后是可选的与第一行中的读段标识符相同的读段标识符。第四行对第二行中的碱基的质量评分(quality score)进行编码并且必须具有相同长度。质量评分代表在对应碱基中被编码成可打印字符的根据弗瑞德标准(Phred scale)的对应碱基的估计出错概率。
SAM(序列比对/映射)和BAM(二进制比对/映射)是用于存储短读段比对程序如BWA和Bowtie的输出的事实文件格式。SAM指定一文本格式,该文本格式由可选的标题区段和随后的一个或多个比对区段构成,比对区段均报告一个读段的比对,如图1中所示。每个标题区段的行或记录以字符“@”开始,随后是双字母记录型编码。一个例外是用于注解,每个记录由TAB界定的一系列数据段构成。每个这种数据段都遵循格式“TAG:VALUE(值)”,其中TAG是限定“VALUE(值)”的格式和内容的两字符的串。各种标题记录类型提供关于如下的信息:
·文件的格式版本和比对区段的分类顺序;
·用于该比对的参考基因组的名称、长度和指针;
·产生文件中的读段组的测序运行(以组织、平台、日期识别);以及
·产生SAM文件的程序。
允许用户限定附加类型的标题记录和数据段。
每个比对区段由代表一个读段的比对结果的一行文本构成,如图1中所示。读段r001/1和r001/2是一个读段对,r003是嵌合读段,而r004代表剪接比对(split alignment)。将小写字母的碱基从比对中剪除。将两个SAM文件行剪接起来,其目的是容易阅读。
比对区段包含提供关于如下的信息的11个强制字段。
·读段的名称(它可能出现多次,每个候选映射出现一次);
·报告同伴配对读段的比对的标志;
·映射该读段所相对的参考基因组的名称;
·该读段在参考基因组中的估计位置;
·映射决策的质量(或概率或错误);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于基因福米卡数据系统有限公司,未经基因福米卡数据系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680042553.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种卡扣式浴房地脚线
- 下一篇:一种新型压缝装置