[发明专利]无参考基因序列的基因数据压缩及还原方法、系统和介质在审

专利信息
申请号: 201910380333.4 申请日: 2019-05-08
公开(公告)号: CN111916155A 公开(公告)日: 2020-11-10
发明(设计)人: 李根;宋卓;徐霞丽;冯博伦;黄能超;赵丽霞;毛海波 申请(专利权)人: 人和未来生物科技(长沙)有限公司
主分类号: G16B50/50 分类号: G16B50/50;G16B30/00
代理公司: 湖南兆弘专利事务所(普通合伙) 43008 代理人: 邹大坚;谭武艺
地址: 410000 湖南省长沙市长沙高*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种无参考基因序列的基因数据压缩及还原方法、系统和介质,本发明提供了采用/不采用影子序列的实现方式,采用影子序列的实现方式建立基因参考序列同长影子序列且初始化为空,针对原始基因数据,首先初始化影子序列,然后通过将原始基因数据和基因参考序列比较动态更新影子序列,并保存原始基因数据与其在影子序列上匹配到的序列之间的差异数据及差异信息,将影子序列、所有的差异信息压缩保存至基因数据压缩文件;不采用影子序列的实现方式则直接保存在基因参考序列上匹配的序列差异数据及差异信息并进行压缩。本发明不需要参考基因序列,其压缩率对比解压需要参考基因序列的方式影响很小,甚至有的数据压缩率还会有所提升。
搜索关键词: 参考 基因 序列 数据压缩 还原 方法 系统 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人和未来生物科技(长沙)有限公司,未经人和未来生物科技(长沙)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910380333.4/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于分布式引擎的基因序列并行压缩算法-202310899859.X
  • 季一木;刘尚东;法虎 - 江苏拓邮信息智能技术研究院有限公司
  • 2023-07-21 - 2023-10-24 - G16B50/50
  • 本发明公布了一种基于分布式引擎的基因序列并行压缩算法,首先输入文件分区:使用TextInputFormat作为输入SAM文件的内部分区方式;其次,进行单机压缩算法:对QUAL字段进行重排序,增加局部冗余度;引入CIGAR字段进行差异编码,减少编码量;通过布隆过滤器来构造高质量索引,并进行匹配编码。根据剩余字段的类型和变化特征,分别选择适当的编码和压缩工具;最后进行压缩算法的并行化:使用RDD算子设计容错性强的并行压缩流程。本发明采用多线程的方式对多个Job进行并行处理,并利用高性能的序列化机制降低了Shuffle过程中数据传输的成本;有效提高了SAM基因序列的压缩速度和压缩效率。
  • 一种面向基因组变异数据的位图索引压缩方法-202310219991.1
  • 白明泽;胡昌星 - 重庆邮电大学
  • 2023-03-09 - 2023-06-06 - G16B50/50
  • 本发明属于信息检索、大数据分析领域,具体涉及一种面向基因组变异数据的位图索引压缩方法,包括:将原始基因组变异数据序列按照字段属性拆分,以列式数据库进行存储;对列式数据库中的基因组变异数据建立原始位图索引;将原始位图索引划分为若干段;将分段后的位图数据公共部分使用游程长度算法压缩存储,非公共部分使用整数列表或比特序列进行压缩存储。本发明通过在位图序列中合并公共词缀的方式,节省了更多的存储空间,提升了按位运算速度,使位图索引加载到内存的速度更快。
  • 纳米孔测序原始信号数据压缩方法、装置、设备及介质-202211415179.8
  • 朱泽轩;贺小天;谢少辉;刘凌;孙怡雯 - 深圳大学
  • 2022-11-11 - 2023-03-14 - G16B50/50
  • 本发明提供了一种纳米孔测序原始信号数据压缩方法、装置、设备及介质,通过获取纳米孔测序文件,提取纳米孔测序文件中的数据集部分,提取第一数据集中的碱基序列数据,调用预设的SSDC压缩器结合提取出的碱基序列数据对第二数据集进行压缩处理,得到压缩数据。与传统VBZ压缩方式相比,本技术方案在进行实施时,预先提取出碱基序列数据,由于该碱基序列数据与第二数据集中的测序原始信号数据相关性高,考虑到原始信号数据的大部分特性,在采用无损压缩的SSDC压缩器结合碱基序列数据对第二数据集进行压缩处理时,可以大大提高压缩性能,保证压缩质量。
  • 一种基因型信息压缩方法、装置及计算机可读存储介质-202211384583.3
  • 朱泽轩;罗小龙;谢少辉;刘凌;孙怡雯 - 深圳大学
  • 2022-11-07 - 2023-02-03 - G16B50/50
  • 本申请涉及一种基因型信息压缩方法、装置及计算机可读存储介质。所述方法包括:根据预设规则对基因型比特矩阵进行分块,得到基因型比特矩阵块;其中,基因型比特矩阵为01矩阵;对基因型比特矩阵块进行重排和运算,得到稀疏矩阵;对稀疏矩阵进行编码,生成索引数组;基于预设压缩算法对索引数组进行压缩,得到压缩文件。通过本申请方案的实施,对基因型比特矩阵进行分块,再对基因型比特矩阵块进行重排和运算得到稀疏矩阵,再对稀疏矩阵进行编码处理得到索引数组,最后对索引数组进行压缩,从而有效地提高压缩基因型信息的效率。
  • 一种测序FASTQ文件质量分数序列的稀疏化处理方法-202211314013.7
  • 彭绍亮;何芒芒;刘文娟 - 湖南大学
  • 2022-10-25 - 2023-01-31 - G16B50/50
  • 本发明公开了一种测序FASTQ文件质量分数序列的稀疏化处理方法,包括:S1、从FASTQ文件中提取质量分数数据流;S2、将待处理的所述质量分数数据流分为多个片段,每个片段包含n个字符;S3、设定相似性计算的滑动窗口大小为m个字符,每m个字符都被分为个片段,并进行个片段之间的相似性度量;S4、设定阈值e,将相似性度量后平均相似度结果大于等于e时的两个片段进行相互替换,得到替换后的质量分数数据流。本发明可以通过质量分数数据流的稀疏化的预处理,将其复杂性降低,从而降低FASTQ文件的压缩率。
  • 一种基因数据压缩方法及系统-202210839728.8
  • 王刚;李为民;陈亚鑫;毕力允;朱琳;王成弟;汪周峰 - 四川大学华西医院
  • 2022-10-27 - 2022-12-23 - G16B50/50
  • 本发明公开了一种基因数据压缩方法及系统,涉及数据压缩技术领域,包括以下步骤:S1、获取基因数据并将其传输到压缩系统中,压缩系统中基因原始数据为fastq格式;S2、压缩系统检测基因数据的格式类型对基因数据进行分类;S3、对原始数据类型的基因数据使用fastq算法进行压缩,并上传到对象存储中,存储自动将文件切割成若干小份,保存到不同的磁盘。本发明的优点在于:独创的压缩fastq文件的算法,是gzip压缩率的2.25倍,可以节省一半多的存储空间,成本投入减少一半以上,内嵌压缩算法系统,可以自动化进行批量数据备份及归档;数据存储在对象存储中,在硬盘损坏的情况下数据不丢失,新硬盘安装后,数据自动补全,全程无需人工操作。
  • 生物序列标识符的压缩方法及装置、解压方法及装置-202110669731.5
  • 陈毓新;赵子健;李胜康;龚淳;黄志博;张勇 - 深圳华大生命科学研究院
  • 2021-06-17 - 2022-12-20 - G16B50/50
  • 本发明公开了生物序列标识符的压缩方法及装置、解压方法及装置。对于基因测序文件中的每个标识符,将所述标识符拆分成若干子标识符;定义若干窗口的编码规则,所述编码规则与所述子标识符的文本格式相匹配;将指代含义相同的子标识符划分至相同的窗口;对于各个窗口,根据对应的编码规则对所述窗口中的所有子标识符进行编码,并将各个窗口的编码结果汇总成所述标识符的压缩结果。这些方法在尽量兼容特殊数据的前提下,尽量提升了对所有标识符数据的压缩率,同时保证了编解码性能。
  • 一种基于分类算法的DNA数据存储动态压缩方法-202211029286.7
  • 赵祥伟;毕昆;赖鑫;陆祖宏 - 东南大学
  • 2022-08-25 - 2022-12-13 - G16B50/50
  • 本发明公开了一种基于分类算法的DNA数据存储动态压缩方法,包括:1)选择需要存储的文件;2)选择分类器,对选择的文件进行分类处理;3)按照分类结果对每种文件使用压缩算法;4)将压缩后的文件数据单独进行碱基转换;5)把文件的名称和转换后的碱基个数保存成单独的碱基序列,作为文件目录;6)将文件碱基序列及文件目录信息拼接成长的碱基序列;7)将拼接后的长碱基序列划分为若干等长序列,添加地址码,纠错码;8)还原文件时,读取文件目录信息,按需还原,得到输入文件。本方法提高了DNA数据存储中数据压缩率,可以根据文件的性质选择压缩算法,从而达到提高文件数据压缩率的目的。
  • 一种基于Spark的大规模基因序列无损并行化压缩方法-202111627707.1
  • 尧海昌;张一帆;彭建华;胡光永;季一木;方厚之 - 南京工业职业技术大学
  • 2021-12-28 - 2022-11-11 - G16B50/50
  • 本发明公开了一种基于Spark的大规模基因序列无损并行化压缩方法,包括参考序列和待压缩序列的预处理步骤,主节点提取参考序列基本碱基序列并构建匹配索引,将参考序列基本碱基序列及其匹配索引以压缩广播变量的形式发送至所有工作节点;各工作节点并行提取待压缩序列基本碱基序列并创建RDD,序列辅助信息单独编码存储;再经过首次并行匹配步骤,二次匹配索引构建步骤,二次并行匹配步骤最终得到压缩文件。本发明充分结合大规模基因二次迭代压缩和Spark基于内存分布数据集的特点,比其他基因压缩方法取得更高的压缩率,更高的压缩速度,并具备优秀的可扩展性。
  • 高通量测序背景下的基因数据压缩方法、装置及相关设备-202211019500.0
  • 杨姣博;张优劲;林培鑫;刘朝熙;贺增泉;晋向前 - 深圳华大医学检验实验室
  • 2022-08-24 - 2022-11-08 - G16B50/50
  • 本申请公开了一种高通量测序背景下的基因数据压缩方法、装置及相关设备,该方法包括:获取待压缩的基因数据,并从所述基因数据中获取各短序列的元数据、碱基数据和质量数据;采用增量编码技术或游程长度编码技术对各短序列的元数据进行压缩;利用预设的参考基因组对各短序列的碱基数据进行比对,并根据比对结果对各短序列的碱基数据进行压缩;结合游程长度编码技术、上下文统计模型、ANS+FSE编码技术、算术编码技术和/或哈夫曼编码技术对各短序列的质量数据进行压缩。本申请通过针对基于数据中的不同部分,分别采用与之相适配的压缩方法进行压缩,可以提高压缩率,从而节省海量基因数据的存储空间。
  • 基因测序数据压缩方法、装置、终端设备和存储介质-202211003550.X
  • 陈墩金;王阳开;毕星浩;林凯翔;张力;孙齐胜 - 广州明领基因科技有限公司
  • 2022-08-22 - 2022-11-04 - G16B50/50
  • 本申请公开了一种基因测序数据压缩方法、装置、终端设备和存储介质,通过获取待压缩的基因测序数据文本;将待压缩的基因测序数据文本进行分割,得到序列标识符数据、碱基基因序列数据和质量数序列数据;根据质量数序列数据,对待压缩的基因测序数据文本进行处理,得到读长;根据预先设置的参考序列,对碱基基因序列数进行匹配处理,得到序列匹配记录数据和序列剩余序列数据;根据预先建立的交叉预测模型,对待压缩的基因测序数据文本进行预测处理,得到预测结果,并根据预测结果,对待压缩的基因测序数据文本进行算数压缩,对基因测序数据文本进行压缩,通过高比例的压缩减少存储与传输开销。
  • 一种基于参考序列的基因压缩方法-201910598102.0
  • 季一木;陈帅;尧海昌;李奎;刘尚东;方厚之;刘强 - 南京邮电大学
  • 2019-07-04 - 2022-08-16 - G16B50/50
  • 本发明公开了一种基于参考序列的基因压缩方法,首先任意选取一个基因序列作为参考序列。其次,获取参考序列的小写字符和ACGT,并以二元组表示小写字符。然后,读取参考文件,获得参考文件的头部、换行信息、小写字符、N字符、碱基信息和其他字符,并将换行长度、小写字符、N字符和其他字符表示成二元组。接着,匹配参考序列和待压缩序列的小写字符二元组。最后匹配Hash值。解压缩过种采用压缩过程相反的步骤。采用本压缩方法的压缩比高,压缩速度快,而且二元组编码与基因次序无关,有利于分布式存储和分析基因序列。
  • 用于对各种各样的表列数据进行有效压缩、表示和解压缩的系统和方法-202080073109.1
  • S·尚达科;张贻谦 - 皇家飞利浦有限公司
  • 2020-10-17 - 2022-05-27 - G16B50/50
  • 一种用于控制数据压缩的方法包括:访问呈多种第一文件格式中的一种第一文件格式的基因组注释数据;从所述基因组注释数据中提取属性;将所述基因组注释数据划分成块;并且将所提取的属性和块处理成相关信息。所述方法还包括:针对在所述相关信息中标识的所述属性和所述块来选择不同压缩器;并且生成呈第二文件格式的文件,所述呈第二文件格式的文件包括所述相关信息和指示用于在所述相关信息中指示的所述属性和所述块的所述不同压缩器的信息。指示所述不同压缩器的所述信息被处理成所述第二文件格式,以允许对在相关信息中指示的所述属性和所述块的选择性解压缩。
  • 一种基于Hadoop的并行化基因数据压缩方法-201910597641.2
  • 季一木;方厚之;尧海昌;李奎;刘尚东;陈帅;刘强 - 南京邮电大学
  • 2019-07-04 - 2022-03-22 - G16B50/50
  • 本发明公开了一种基于Hadoop的并行化基因数据压缩方法,事先从待压缩基因序列中选取并通过k‑mer构建Hash表编码参考序列,并将参考序列存储为索引文件。启动Hadoop集群,将配置、索引和待压缩文件传到HDFS上,配置MapReduce任务,在Map任务中读取待压缩序列的所有信息,使用Combiner与Partitioner对Map结果优化。在Reduce任务中进行待压缩序列与参考序列的匹配去重,最后将结果压缩输出。本发明使用分布式计算方式可以在读取单个基因实现并行化并提高效率,还可以实现多条基因序列的并行处理,以实现处理压缩大批量基因文件的加速。
  • 一种DNA存储的码字设计方法-202111301348.0
  • 王宾;郑燕芬;胡轶男;张强 - 大连大学
  • 2021-11-04 - 2022-02-08 - G16B50/50
  • 本发明公开了一种DNA存储的码字设计方法,其具体为:将存储信息转换为DNA序列,首先要将信息转换为二进制数据。其次,构建最小方差霍夫曼树,利用它对二进制数据进行压缩。然后,将压缩后的二进制数据以4位为一组进行不重叠分块,得到至多16种组合,根据组合的概率依次从字典中选择码字进行映射,得到DNA序列。最后,求得DNA序列的GC含量,如果GC含量高于60%或者低于40%,会对映射关系进行调整,使得它在40%到60%之间;再进一步检查DNA序列中是否含有均聚物超过3的情况,如果存在就进行替换修改。本发明不仅具有高的编码率和结构简单的特点,而且编码完成的DNA序列还满足GC含量在40%到60%之间和均聚物运行长度不超过3的约束条件。
  • 一种质谱数据压缩方法-202110921939.1
  • 陆妙善;王瑞敏;安绍维 - 碳硅(杭州)生物科技有限责任公司
  • 2021-08-12 - 2021-11-16 - G16B50/50
  • 一种质谱数据压缩方法,包括以下步骤:S1、将原始数据文件进行切分为质谱数据和基础元数据,其中质谱数据包括质核比数组和强度数组,质核比数组与强度数组长度相同并且一一对应;S2、质核比数组和强度数组在ZDPD压缩内核中压缩成为二进制数据;同时质谱的基础元数据信息以JSON格式保存;S3、对步骤S2中使用ZDPD进行压缩内核时产生的二进制数组直接输出为质谱数据Aird格式文件,同时在压缩数据时,将质谱仪在数据依赖模式/数据非依赖模式/PRM模式/传统模式的多策略索引下生成的相关基础索引数据并入到步骤S2中的JSON格式元数据中,形成完整的元数据格式JSON文件。本发明搭建了大型的蛋白质组学数据中心,实现了一套自研的面向计算的高性能数据格式。
  • 一种基因型高通量测序数据的压缩方法-201910528739.2
  • 王嘉博;王吉坤;柴志欣;王会;钟金城 - 西南民族大学
  • 2019-06-18 - 2021-07-09 - G16B50/50
  • 本发明公开了一种基因型高通量测序数据的压缩方法,要解决的是现有压缩方法的问题。本发明具体步骤如下:步骤一,利用群体遗传参数评估染色体上窗口的个数和大小;步骤二,将整个群体中以碱基为单位的基因型转变为以窗口为单位的基因型文件,生成代表群体遗传关联的二进制文件;步骤三,将整个群体中每个个体的以窗口为单位的基因型文件分别读取进计算机内存中,按顺序生成相应的两个二进制基因型数据文件,转换整个群体内所有个体的以窗口为单位的基因型文件,即可得到整个群体中的基因型结果。本发明利用生物学遗传原理,减小原始基因型文件的占有空间;使压缩后的文件可以直接进行运算,提高运行效率。
  • 一种基因型数据压缩方法、系统、计算机设备及存储介质-202011371618.0
  • 张柳彬;李淼新 - 中山大学
  • 2020-11-30 - 2021-03-12 - G16B50/50
  • 本发明公开了一种基因型数据压缩方法,包括:采用最简基因型数据编码方式,以字节为单位对基因型数据进行编码处理,以生成基因型阵列;对所述基因型阵列进行特征采样及重排序处理,以生成变异位点特征阵列;根据变异位点特征阵列的顺序依次对非基因型数据及基因型阵列进行压缩处理,以生成GTB文件。本发明还公开了一种基因型数据压缩系统、计算机设备及存储介质。采用本发明,可实现更为高效、统一的大规模基因型数据区块压缩。
  • 一种基因大数据分析与计算平台-201910518741.1
  • 陈墩金;周峻松;徐继峰;祁建明 - 广州明领基因科技有限公司
  • 2019-06-15 - 2020-12-15 - G16B50/50
  • 本发明公开了一种基因大数据分析与计算平台,涉及基因大数据分析与计算平台领域,该平台由数据读取模块、数据压缩模块、数据分析模块、数据存储模块组成。数据读取模块用于读取DNA测序仪得到的FASTQ数据,并将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流送入数据压缩模块;数据压缩模块将三个数据流独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩;数据分析模块用于将FASTQ数据进行短序列比对,提取比对结果中的SNP突变信息;数据存储模块采用分布式框架将数据放在不同的数据节点中存储,既保证了数据的可靠性,同时增加了数据的安全性。该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。
  • 无参考基因序列的基因数据压缩及还原方法、系统和介质-201910380333.4
  • 李根;宋卓;徐霞丽;冯博伦;黄能超;赵丽霞;毛海波 - 人和未来生物科技(长沙)有限公司
  • 2019-05-08 - 2020-11-10 - G16B50/50
  • 本发明公开了一种无参考基因序列的基因数据压缩及还原方法、系统和介质,本发明提供了采用/不采用影子序列的实现方式,采用影子序列的实现方式建立基因参考序列同长影子序列且初始化为空,针对原始基因数据,首先初始化影子序列,然后通过将原始基因数据和基因参考序列比较动态更新影子序列,并保存原始基因数据与其在影子序列上匹配到的序列之间的差异数据及差异信息,将影子序列、所有的差异信息压缩保存至基因数据压缩文件;不采用影子序列的实现方式则直接保存在基因参考序列上匹配的序列差异数据及差异信息并进行压缩。本发明不需要参考基因序列,其压缩率对比解压需要参考基因序列的方式影响很小,甚至有的数据压缩率还会有所提升。
  • 基因测序数据压缩方法、系统及计算机可读介质-201710982696.6
  • 李根;宋卓;刘蓬侠;王振国;冯博伦 - 人和未来生物科技(长沙)有限公司
  • 2017-10-20 - 2020-07-24 - G16B50/50
  • 本发明公开了一种基因测序数据压缩方法、系统及计算机可读介质,压缩方法包括遍历获取读长为Lr的读序列,针对每一条读序列生成短串K‑mer,选择原始基因字符串CS0并确定正负链类型d,通过预测数据模型P1获取每个短串K‑mer的预测字符c得到预测字符集PS,将读序列R的Lr‑k位、预测字符集PS编码后通过可逆函数进行可逆运算;将读序列R的正负链类型d、CS0及可逆运算结果压缩输出。本发明具有压缩率低,压缩时间短,压缩性能稳定的优点,不需要对基因数据进行精准比对,有较高的计算效率,预测数据模型P1的预测准确度越高,则可逆运算结果中的重复字符串就越多,压缩的压缩率就越低。
  • 比对型基因测序数据压缩方法、系统及计算机可读介质-201710982786.5
  • 李根;宋卓;刘蓬侠;王振国;冯博伦;马丑贤 - 人和未来生物科技(长沙)有限公司
  • 2017-10-20 - 2020-07-17 - G16B50/50
  • 本发明公开了一种比对型基因测序数据压缩方法、系统及计算机可读介质,压缩方法针对基因测序数据样本中的每一条读序列R,选择原始基因字符串CS0,按照顺序生成长度为k的短串K‑mer,依次将短串K‑mer和参考基因组进行比对获取其在参考基因组的正链或负链中相邻位的预测字符c,得到所有预测字符c构成的预测字符集PS;将读序列R的Lr‑k位、预测字符集PS编码后通过可逆函数进行可逆运算;将读序列R的正负链类型d、CS0以及可逆运算结果作为三条数据流压缩输出。本发明具有压缩率低,压缩时间短,压缩性能稳定的优点,不需要对基因数据进行精准比对,有较高的计算效率,比对准确度越高,则压缩率就越低。
  • 基因测序数据压缩解压方法、系统及计算机可读介质-201710999663.2
  • 李根;宋卓;刘蓬侠;王振国;冯博伦 - 人和未来生物科技(长沙)有限公司
  • 2017-10-24 - 2020-03-17 - G16B50/50
  • 本发明公开了一种基因测序数据压缩解压方法、系统及计算机可读介质,压缩方法通过将读序列R和参考基因组进行比对获取等长基因字符序列CS;将读序列R、等长基因字符序列CS编码后通过可逆函数进行可逆运算,将读序列R在参考基因组中的最近似位置p、可逆运算结果作为两条数据流压缩输出,解压方法为压缩方法的逆向处理。本发明能够将压缩率更进一步降低、在获得相对较好的压缩率时算法的压缩/解压时间相对较短、可兼容各种将读序列和参考基因组进行比对的算法,具有压缩率低,压缩时间短,压缩性能稳定的优点,不需要对基因数据进行精准比对,有较高的计算效率,比对准确度越高,则压缩率就越低。
  • 一种基因测序数据质量分数的并行压缩方法-201910499892.7
  • 董守斌;柯璧新;付佳兵;胡金龙 - 华南理工大学
  • 2019-06-11 - 2019-10-18 - G16B50/50
  • 本发明公开了一种基因测序数据质量分数的并行压缩方法,包括步骤:1)对FASTQ格式文件数据进行划分,获得质量分数部分的数据;2)以行为单位,计算每一行质量分数的得分,并根据得分对这一行数据进行分类;3)当一个分类中质量分数数量达到阈值,或者这个分类无更多的质量分数加入时,将这个分类中的质量分数作为一个数据块放入计算缓冲队列中,并清空这个分类中的数据;4)由一个空闲的计算单元取走计算缓冲队列中的一个数据块,进行变换,使用向量化优化的ZPAQ进行编码,完成后放入输出缓冲队列中;5)由输出处理单元处理的压缩数据输出,直到完成所有压缩数据的输出,然后加入维护信息。本发明的技术方案具有性能高、扩展性强的特点。
  • 一种海量DNA测序数据无损快速压缩平台-201810018495.9
  • 陈墩金;徐继峰;周峻松;祁建明 - 广州明领基因科技有限公司
  • 2018-01-11 - 2019-08-09 - G16B50/50
  • 本发明公开了一种海量DNA测序数据无损快速压缩平台,涉及DNA测序数据压缩平台领域,该平台将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流,并根据它们自身特点分别独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用LZMA算法、游程编码、算术编码进行压缩。该平台针对DNA序列本身具有的冗余性进行压缩,减少了压缩所需的存储空间。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top