[发明专利]多核平台下BAM文件解析还原方法及系统有效
| 申请号: | 202210308495.9 | 申请日: | 2022-03-28 |
| 公开(公告)号: | CN114416666B | 公开(公告)日: | 2022-09-20 |
| 发明(设计)人: | 刘卫国;赵展;殷泽坤;闫立峰 | 申请(专利权)人: | 山东大学 |
| 主分类号: | G06F16/16 | 分类号: | G06F16/16 |
| 代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
| 地址: | 250101 山东*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 多核 平台 bam 文件 解析 还原 方法 系统 | ||
本发明提供了一种多核平台下BAM文件解析还原方法及系统,其属于生物信息技术领域,所述方案包括:获取待解析的BAM文件;通过读取线程对BAM文件进行读取,并通过若干解压线程对BAM文件进行并行解压,并将解压后的bam_block数据输入到第一任务队列;通过第一解析线程对所述第一任务队列中的bam_block数据进行简单解析,满足每个bam_block中包括一个或多个完整的bam1_t数据结构,并将解析后的bam_block数据输入到第二任务队列;通过若干第二解析线程对所述第二任务队列中的bam_block数据进行并行解析,获得bam1_t结构数据。
技术领域
本发明属于生物信息技术领域,尤其涉及一种多核平台下BAM文件解析还原方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
测序数据的分析大致分为三个阶段,第一阶段是将测序过程中的物理或光学信号解析识别为碱基序列,碱基识别结果的常用格式是 FASTQ 格式。第二阶段是对 FASTQ 文件中的碱基序列信息和质量分数进行质量控制,预处理以及定位到参考基因组上。测序数据的质量控制需要使用质量分数和碱基序列的信息,进行去掉低质量读段,去掉接头序列等相关操作,对处理过的FASTQ文件进行定位到参考基因组上得到 SAM/BAM 文件,提供第三阶段分析所需的关键信息。第三阶段的分析需要根据具体应用进行对应的专门分析,例如,转录组特征和可变碱基检测,遗传突变和变异的发现,组装基因组,蛋白质与DNA互作分析,表观基因组与DNA甲基化和宏基因组学。
发明人发现,BAM文件具有以下特性:BAM文件使用自己独有的一套压缩和解压缩方式,不同于市面上常见的压缩和解压缩算法;为了减少测序时产生的随机误差,会对测序序列反复测量多次,导致BAM文件普遍较大,对内存提出了较高的要求;BAM文件存在一定的顺序关系,由于BAM压缩文件的压缩方式为分块压缩,每个压缩块中存在多个记录,但是一个记录可能被分在两个相邻的压缩块之中(即前一个压缩块存在一个记录的前一部分,后一个压缩块存在一个记录的后一部分),因此不利于多线程预处理相同的BAM文件。基于BAM文件的上述特性,现有的解析还原方法存在以下问题:
(1)当前广泛使用的HTSLIB库的多线程读取BAM文件是使用多线程解压,然后解压完成之后,再使用单独线程解析成bam1_t文件,其具体流程如图1所示;但是,由于baml_t的文件解析复杂度较高,单一线程解析会导致解析线程成为程序的性能瓶颈。
(2)由于BAM 文件普遍较大,直接将其放入内存中,会占据大量内存,但是个人电脑无法提供如此大的内存,甚至导致用户电脑无法正常使用,并且也会大幅降低程序运行速度。
发明内容
本发明为了解决上述问题,提供了一种多核平台下BAM文件解析还原方法及系统,所述方案针对BAM文件的读取方式进行改进,采用一种新型的BAM文件的读取方法,在读取效率上能够比当前的BAM读取方法效率更高,并且考虑到了内存的影响,使用缓冲池技术减少了对内存的占用。
根据本发明实施例的第一个方面,提供了一种多核平台下BAM文件解析还原方法,包括:
获取待解析的BAM文件;
通过读取线程对BAM文件进行读取,并通过若干解压线程对BAM文件进行并行解压,并将解压后的bam_block数据输入到第一任务队列;
通过第一解析线程对所述第一任务队列中的bam_block数据进行简单解析,满足每个bam_block中包括一个或多个完整的bam1_t数据结构,并将解析后的bam_block数据输入到第二任务队列;
通过若干第二解析线程对所述第二任务队列中的bam_block数据进行并行解析,获得bam1_t结构数据。
根据本发明实施例的第二个方面,提供了一种多核平台下BAM文件解析还原系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210308495.9/2.html,转载请声明来源钻瓜专利网。





