[发明专利]多核平台下BAM文件解析还原方法及系统有效

专利信息
申请号: 202210308495.9 申请日: 2022-03-28
公开(公告)号: CN114416666B 公开(公告)日: 2022-09-20
发明(设计)人: 刘卫国;赵展;殷泽坤;闫立峰 申请(专利权)人: 山东大学
主分类号: G06F16/16 分类号: G06F16/16
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 张勇
地址: 250101 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 多核 平台 bam 文件 解析 还原 方法 系统
【说明书】:

发明提供了一种多核平台下BAM文件解析还原方法及系统,其属于生物信息技术领域,所述方案包括:获取待解析的BAM文件;通过读取线程对BAM文件进行读取,并通过若干解压线程对BAM文件进行并行解压,并将解压后的bam_block数据输入到第一任务队列;通过第一解析线程对所述第一任务队列中的bam_block数据进行简单解析,满足每个bam_block中包括一个或多个完整的bam1_t数据结构,并将解析后的bam_block数据输入到第二任务队列;通过若干第二解析线程对所述第二任务队列中的bam_block数据进行并行解析,获得bam1_t结构数据。

技术领域

本发明属于生物信息技术领域,尤其涉及一种多核平台下BAM文件解析还原方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

测序数据的分析大致分为三个阶段,第一阶段是将测序过程中的物理或光学信号解析识别为碱基序列,碱基识别结果的常用格式是 FASTQ 格式。第二阶段是对 FASTQ 文件中的碱基序列信息和质量分数进行质量控制,预处理以及定位到参考基因组上。测序数据的质量控制需要使用质量分数和碱基序列的信息,进行去掉低质量读段,去掉接头序列等相关操作,对处理过的FASTQ文件进行定位到参考基因组上得到 SAM/BAM 文件,提供第三阶段分析所需的关键信息。第三阶段的分析需要根据具体应用进行对应的专门分析,例如,转录组特征和可变碱基检测,遗传突变和变异的发现,组装基因组,蛋白质与DNA互作分析,表观基因组与DNA甲基化和宏基因组学。

发明人发现,BAM文件具有以下特性:BAM文件使用自己独有的一套压缩和解压缩方式,不同于市面上常见的压缩和解压缩算法;为了减少测序时产生的随机误差,会对测序序列反复测量多次,导致BAM文件普遍较大,对内存提出了较高的要求;BAM文件存在一定的顺序关系,由于BAM压缩文件的压缩方式为分块压缩,每个压缩块中存在多个记录,但是一个记录可能被分在两个相邻的压缩块之中(即前一个压缩块存在一个记录的前一部分,后一个压缩块存在一个记录的后一部分),因此不利于多线程预处理相同的BAM文件。基于BAM文件的上述特性,现有的解析还原方法存在以下问题:

(1)当前广泛使用的HTSLIB库的多线程读取BAM文件是使用多线程解压,然后解压完成之后,再使用单独线程解析成bam1_t文件,其具体流程如图1所示;但是,由于baml_t的文件解析复杂度较高,单一线程解析会导致解析线程成为程序的性能瓶颈。

(2)由于BAM 文件普遍较大,直接将其放入内存中,会占据大量内存,但是个人电脑无法提供如此大的内存,甚至导致用户电脑无法正常使用,并且也会大幅降低程序运行速度。

发明内容

本发明为了解决上述问题,提供了一种多核平台下BAM文件解析还原方法及系统,所述方案针对BAM文件的读取方式进行改进,采用一种新型的BAM文件的读取方法,在读取效率上能够比当前的BAM读取方法效率更高,并且考虑到了内存的影响,使用缓冲池技术减少了对内存的占用。

根据本发明实施例的第一个方面,提供了一种多核平台下BAM文件解析还原方法,包括:

获取待解析的BAM文件;

通过读取线程对BAM文件进行读取,并通过若干解压线程对BAM文件进行并行解压,并将解压后的bam_block数据输入到第一任务队列;

通过第一解析线程对所述第一任务队列中的bam_block数据进行简单解析,满足每个bam_block中包括一个或多个完整的bam1_t数据结构,并将解析后的bam_block数据输入到第二任务队列;

通过若干第二解析线程对所述第二任务队列中的bam_block数据进行并行解析,获得bam1_t结构数据。

根据本发明实施例的第二个方面,提供了一种多核平台下BAM文件解析还原系统,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210308495.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top