[发明专利]一种高通量DNA测序质量分数无损压缩系统及压缩方法有效

申请号：	201410240933.8	申请日：	2014-05-30
公开（公告）号：	CN103995988B	公开（公告）日：	2017-02-01
发明（设计）人：	周家锐;华韵之;纪震;朱泽轩;曾启明	申请（专利权）人：	周家锐;华韵之;纪震;朱泽轩;曾启明
主分类号：	G06F19/10	分类号：	G06F19/10
代理公司：	深圳市君胜知识产权代理事务所(普通合伙)44268	代理人：	王永文
地址：	518060 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种通量 dna 质量分数无损压缩系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据压缩领域，尤其涉及一种高通量DNA测序质量分数无损压缩系统及压缩方法。

背景技术

DNA序列数据由针对DNA物质的测序技术采集获得，是遗传学、基因组学、生物信息学、医学等诸多领域的基础研究对象，具有重要科学价值与实际意义。随着新一代高通量测序技术(Next-generation Sequencing,NGS)日益成熟并大量使用，获取DNA数据所需时间有效降低，成本显著下降。但另一方面，其所产生的DNA数据量也在急剧增长，从而对现有存储与传输技术造成了巨大压力。亟须设计具针对性的压缩方法。

NGS高通量测序所获取的DNA数据常以FASTQ各式存储。与传统测序数据不同，FASTQ由一连串的短读记录(Reads)构成，每个短读包含三部分内容：(1).元数据(Metadata)，用于描述短读名、测序平台等信息；(2).DNA碱基序列(Nucleotide Sequence)，用于记录在当前短读中所获得的DNA片段；(3).质量分数(Quality Scores)，用于表示所对应DNA碱基序列中各符号测定的可信程度。在同一条短读记录内，其DNA碱基序列长度与质量分数序列长度是一致的。

现有的高通量测序数据压缩算法，一般只着眼于其短读中DNA碱基序列的压缩，而忽略了其它两个部分。对于元数据，因其整体相似度较高，仅使用差异编码即可获得较好的压缩结果。但对于质量分数部分，则需设计更具针对性的编码方法。其原因在于：(1).质量分数与测序仪器、对应碱基序列等因素相关，其数据间差异度较高；(2).与DNA碱基序列仅含A、T、G、C四种符号不同，质量分数往往包含数十种不同的字符，压缩难度更高；(3).质量分数与DNA碱基序列长度相同，所占用的数据大小一致。

现有算法一般使用常见的熵编码方法，如哈夫曼编码(Huffman Encoding)、游程编码(Run-length Encoding,RLE)等对高通量DNA测序质量分数进行无损压缩。而另外一些算法如Quip等，则使用高阶马尔科夫模型(High-order Markov Chain)对其进行预测编码。对于传统的熵编码压缩算法，由于其主要设计用于处理普通字符序列，并未考虑质量分数的独有数据特点，导致压缩性能不佳。在极端情况下，甚至出现编码后数据量反而有所增长的情况。而基于高阶马尔科夫模型的预测编码算法，一方面，其建模需统计全序列上各符号的出现频率，耗时较长。另一方面，预测模型所占存储体积较大，不适用于压缩较小的高通量测序数据。此外，模型的预测准确率与输入数据有着较大关联，对某些序列压缩率较低，算法鲁棒性能不佳。

因此，现有技术还有待于改进和发展。

发明内容

鉴于上述现有技术的不足，本发明的目的在于提供一种高通量DNA测序质量分数无损压缩系统及压缩方法，旨在解决目前高通量DNA测序数据压缩算法对质量分数数据针对性不强，压缩效果不理想的问题。

本发明的技术方案如下：

一种高通量DNA测序质量分数无损压缩方法，其中，所述方法包括以下步骤：

A、预先基于文化基因算法构造质量分数压缩码本；

B、接收输入的原始高通量DNA测序质量分数数据，针对数据中每个原始质量分数序列在质量分数压缩码本中搜索与其最相似的编码矢量；

C、利用所搜索到的编码矢量对相应的原始质量分数序列进行压缩。

所述的高通量DNA测序质量分数无损压缩方法，其中，所述原始高通量DNA测序质量分数数据为ASCII码编码的FASTQ格式。

所述的高通量DNA测序质量分数无损压缩方法，其中，所述步骤A具体为：

A1、设定质量分数压缩码本的大小M以及编码矢量长度N，统计待输入的原始高通量DNA测序质量分数数据中的符号种类形成符号集合，并据此设置搜索范围；

A2、在搜索范围内随机构造M个候选解长度为N的寻优个体，形成进化种群，设定文化基因算法迭代次数为K，初始化迭代计数器k＝1；