[发明专利]基于多层次并行的基因数据无损压缩方法及装置有效
申请号: | 202110632386.8 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113268460B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 谭光明;李叶文;高睿昊;臧大伟;刘万奇;康宁 | 申请(专利权)人: | 中科计算技术西部研究院 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G16B30/00 |
代理公司: | 重庆强大凯创专利代理事务所(普通合伙) 50217 | 代理人: | 黄书凯 |
地址: | 401120 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多层次 并行 基因 数据 无损 压缩 方法 装置 | ||
本发明涉及数据压缩技术领域,具体涉及一种基于多层次并行的基因数据无损压缩方法及装置,所述方法包括以下步骤:S1、将输入的原始基因数据分割为N个数据字段;S2、将每个数据字段分割为M个数据块,并分别为每个数据字段分配M条相同的压缩流水线;S3、对每个数据块分别匹配一条压缩流水线,并进行压缩;S4、获取压缩流水线的第一并行度和第N个数据字段的第二并行度;S5、根据每个数据字段的第二并行度,分析最后完成压缩的数据字段;S6、在每个数据字段均完成压缩后,先对各数据字段中每个数据块的压缩结果进行合并,再对各数据字段的压缩结果进行合并,获得原始基因数据的压缩数据。本发明能够更加高性能、低成本的对基因数据进行压缩处理。
技术领域
本发明涉及数据压缩技术领域,具体涉及一种基于多层次并行的基因数据无损压缩方法及装置。
背景技术
基因测序技术作为探索生命奥秘的重要手段,已经成为了生物信息学研究的重要分支,在物种鉴别、基因检测、疾病诊断等方面有着广泛的应用,基因测序技术的飞速发展为精准医疗奠定了坚实的基础。
二代测序成本的不断下降,导致基因测序数据爆炸式增长,这种趋势在未来会更加明显。与此同时,相应的基因分析软件运行过程中也会产生海量的中间数据。面对如此海量的基因测序数据和中间数据,使用数据压缩技术来缓解上述数据对硬盘存储空间、网络带宽、以及计算带来的巨大压力,就成为了一个自然的选择。为了保存完整的基因数据信息,通常采用的是无损压缩。无损压缩是指能够在100%保存源文件的所有数据的前提下,将文件的容量空间压缩得更小,再将压缩后的文件还原后,可完全恢复源文件的所有数据而不引起任何失真。
当前广泛采用的方式是在计算机CPU上运行压缩软件程序,并将其嵌入到基因分析的软件流程中。这样的方式有三个缺点:一,这会加重计算机CPU的负担,影响整个基因分析流程的性能;二,软件压缩的性能不足,难以满足日益增长的海量基因数据对计算机系统的要求;三,在CPU系统和存储硬盘之间会产生不必要的I/O开销。此外,当前基因分析流程中使用的多为对通用数据进行处理的压缩软件,在压缩率方面存在不足,这也制约了数据压缩对于缓解海量基因数据能够起到的作用。综上所述,人类需要更加高性能、低成本的基因数据压缩处理方式。
发明内容
本发明的目的之一在于提供一种基于多层次并行的基因数据无损压缩方法,能够更加高性能对基因数据进行压缩处理。
为了达到上述目的,提供了一种基于多层次并行的基因数据无损压缩方法,包括以下步骤:
S1、将输入的原始基因数据分割为N个数据字段;
S2、将每个数据字段分割为M个数据块,并分别为每个数据字段分配M条相同的压缩流水线;
S3、对每个数据块分别匹配一条压缩流水线,并通过压缩流水线对数据块进行压缩;
S4、获取第N个数据字段所分配的压缩流水线由若干压缩算子组合后,所得到的第一并行度KN;并根据第一并行度KN获取第N个数据字段的第二并行度M*KN;
S5、根据每个数据字段的第二并行度M*KN,分析最后完成压缩的数据字段;
S6、在每个数据字段均完成压缩后,先对各数据字段中每个数据块的压缩结果进行合并,再对各数据字段的压缩结果进行合并,获得原始基因数据的压缩数据。
原理及优点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科计算技术西部研究院,未经中科计算技术西部研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110632386.8/2.html,转载请声明来源钻瓜专利网。