[发明专利]基因测序数据的压缩方法在审
申请号: | 201810040658.3 | 申请日: | 2018-01-16 |
公开(公告)号: | CN108306650A | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 俞容山 | 申请(专利权)人: | 厦门极元科技有限公司 |
主分类号: | H03M7/40 | 分类号: | H03M7/40;G06F19/22;G06F19/28 |
代理公司: | 厦门市新华专利商标代理有限公司 35203 | 代理人: | 李宁 |
地址: | 361000 福建省厦门市自*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 质量数据 基因测序 测序数据 利用基因 统计特性 压缩效率 压缩 熵编码 重复 改写 统计 | ||
本发明公开一种基因测序数据的压缩方法,包括:将质量数据序列改写成{q,r}的形式,其中q为质量数据,r为该质量数据的重复次数;分别用不同的统计属性对质量数据q和重复次数r进行熵编码。本发明通过利用基因测序数据的统计特性,提高了基因测序数据的压缩效率。
技术领域
本发明涉及基因测序数据的一种压缩方式,特别涉及基因测序数据的压缩方法。
背景技术
高通量测序技术(HTS)的发展和飞速进步使得将基因组信息用作多个领域的日常实践成为可能。例如,随着最新高通量测序仪器的发布,人类全基因组测序(WGS)的成本已经下降到仅1,000美元。很快测序成本就会下降到大约100美元。这些在降低测序成本方面取得的成就打开了个性化医疗的大门,使得对患者的基因组信息进行测序和分析可以像如今的标准血液检测一样频繁。然而,由于存储和处理数据相关的IT成本,测序数据的不断增长已然严重阻碍了公共卫生测序更广泛地传播。
时至今日,一个单一的测序系统每年可以传送超过18,000个人类全基因组,按照目前的测序能力,每年产生近乎5PB的数据(1PB=2^50B),因此,随着基因测序技术的普及不断增加,基因组数据的高效存储和传输将变得至关重要。然而,缺乏适当的表示方法和有效的压缩技术严重限制了基因组数据在科学和公共卫生目的潜力的。
在信息论里面,数据压缩是指在不丢失有用信息的前提下,通过按照一定的算法对数据进行重新组织以缩减其数据量,从而减少存储空间,提高其传输、存储和处理效率的技术。比较常用的压缩算法包括广泛用于文本或通用数据压缩的Lempel-Ziv(LZ)压缩方法及其变种,用于图像压缩的GIF,JPEG算法,以及用于音视频压缩的MPEGAudio/Video压缩算法等。然而,由于基因测序数据的特性和普通的文本或音视频数据较大差异,直接使用这些通用的压缩算法对基因测序数据进行直接压缩的效果并不理想,故而需要根据基因测试数据的格式和统计特性,研究更有效的压缩技术。
目前,基因测序数据一般用文本格式进行存储。常用的格式包含FASTQ格式和SAM格式。其中,FASTQ用于存储未经定序(alignment)的原始基因测试数据,SAM用于存储经过定序(alignment)的基因测序数据,下面分别对FASTQ于SAM格式进行详细介绍。
FASTQ:
FASTQ是基于文本的,保存生物序列(通常是核酸序列)和其测序质量信息的标准格式。其序列以及质量信息都是使用一个ASCII字符标示,最初由Sanger开发,目的是将FASTA序列与质量数据放到一起,目前已经成为高通量测序结果的事实标准。
FASTQ文件中每个序列通常有如下四行:
序列标识以及相关的描述信息(ReadName),以‘@’开头;
第二行是序列片段的序列信息(SEQ);
第三行以‘+’开头,后面是序列标示符、描述信息,或者什么也不加;
第四行,是质量信息(QUAL),与第二行的序列相对应,每一个序列都有一个质量评分,根据评分体系的不同,每个字符的含义表示的数字也不相同。
FASTQ文件序列例子:
@@HWUSI-EAS100R:6:73:941:1973#0/1
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF>>>>>>CCCCCCC65
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门极元科技有限公司,未经厦门极元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810040658.3/2.html,转载请声明来源钻瓜专利网。