[发明专利]一种高通量DNA测序质量分数无损压缩系统及压缩方法有效
| 申请号: | 201410240933.8 | 申请日: | 2014-05-30 |
| 公开(公告)号: | CN103995988B | 公开(公告)日: | 2017-02-01 |
| 发明(设计)人: | 周家锐;华韵之;纪震;朱泽轩;曾启明 | 申请(专利权)人: | 周家锐;华韵之;纪震;朱泽轩;曾启明 |
| 主分类号: | G06F19/10 | 分类号: | G06F19/10 |
| 代理公司: | 深圳市君胜知识产权代理事务所(普通合伙)44268 | 代理人: | 王永文 |
| 地址: | 518060 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 通量 dna 质量 分数 无损 压缩 系统 方法 | ||
技术领域
本发明涉及数据压缩领域,尤其涉及一种高通量DNA测序质量分数无损压缩系统及压缩方法。
背景技术
DNA序列数据由针对DNA物质的测序技术采集获得,是遗传学、基因组学、生物信息学、医学等诸多领域的基础研究对象,具有重要科学价值与实际意义。随着新一代高通量测序技术(Next-generation Sequencing,NGS)日益成熟并大量使用,获取DNA数据所需时间有效降低,成本显著下降。但另一方面,其所产生的DNA数据量也在急剧增长,从而对现有存储与传输技术造成了巨大压力。亟须设计具针对性的压缩方法。
NGS高通量测序所获取的DNA数据常以FASTQ各式存储。与传统测序数据不同,FASTQ由一连串的短读记录(Reads)构成,每个短读包含三部分内容:(1).元数据(Metadata),用于描述短读名、测序平台等信息;(2).DNA碱基序列(Nucleotide Sequence),用于记录在当前短读中所获得的DNA片段;(3).质量分数(Quality Scores),用于表示所对应DNA碱基序列中各符号测定的可信程度。在同一条短读记录内,其DNA碱基序列长度与质量分数序列长度是一致的。
现有的高通量测序数据压缩算法,一般只着眼于其短读中DNA碱基序列的压缩,而忽略了其它两个部分。对于元数据,因其整体相似度较高,仅使用差异编码即可获得较好的压缩结果。但对于质量分数部分,则需设计更具针对性的编码方法。其原因在于:(1).质量分数与测序仪器、对应碱基序列等因素相关,其数据间差异度较高;(2).与DNA碱基序列仅含A、T、G、C四种符号不同,质量分数往往包含数十种不同的字符,压缩难度更高;(3).质量分数与DNA碱基序列长度相同,所占用的数据大小一致。
现有算法一般使用常见的熵编码方法,如哈夫曼编码(Huffman Encoding)、游程编码(Run-length Encoding,RLE)等对高通量DNA测序质量分数进行无损压缩。而另外一些算法如Quip等,则使用高阶马尔科夫模型(High-order Markov Chain)对其进行预测编码。对于传统的熵编码压缩算法,由于其主要设计用于处理普通字符序列,并未考虑质量分数的独有数据特点,导致压缩性能不佳。在极端情况下,甚至出现编码后数据量反而有所增长的情况。而基于高阶马尔科夫模型的预测编码算法,一方面,其建模需统计全序列上各符号的出现频率,耗时较长。另一方面,预测模型所占存储体积较大,不适用于压缩较小的高通量测序数据。此外,模型的预测准确率与输入数据有着较大关联,对某些序列压缩率较低,算法鲁棒性能不佳。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供一种高通量DNA测序质量分数无损压缩系统及压缩方法,旨在解决目前高通量DNA测序数据压缩算法对质量分数数据针对性不强,压缩效果不理想的问题。
本发明的技术方案如下:
一种高通量DNA测序质量分数无损压缩方法,其中,所述方法包括以下步骤:
A、预先基于文化基因算法构造质量分数压缩码本;
B、接收输入的原始高通量DNA测序质量分数数据,针对数据中每个原始质量分数序列在质量分数压缩码本中搜索与其最相似的编码矢量;
C、利用所搜索到的编码矢量对相应的原始质量分数序列进行压缩。
所述的高通量DNA测序质量分数无损压缩方法,其中,所述原始高通量DNA测序质量分数数据为ASCII码编码的FASTQ格式。
所述的高通量DNA测序质量分数无损压缩方法,其中,所述步骤A具体为:
A1、设定质量分数压缩码本的大小M以及编码矢量长度N,统计待输入的原始高通量DNA测序质量分数数据中的符号种类形成符号集合,并据此设置搜索范围;
A2、在搜索范围内随机构造M个候选解长度为N的寻优个体,形成进化种群,设定文化基因算法迭代次数为K,初始化迭代计数器k=1;
A3、在每次迭代时,计算进化种群中每个寻优个体的适应度函数值;
A4、在计算所有寻优个体的适应度函数值后,使用适应度共享技术计算各寻优个体的共享适应度函数值;
A5、基于各寻优个体的共享适应度函数值,使用文化基因算法优化进化种群。
A6、更新迭代计数器k=k+1。若k<K,则返回步骤A3,否则执行步骤A7;
A7、将最终获得的进化种群中各寻优个体映射为各编码矢量,从而构成质量分数压缩码本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于周家锐;华韵之;纪震;朱泽轩;曾启明,未经周家锐;华韵之;纪震;朱泽轩;曾启明许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410240933.8/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





