[发明专利]一种BWT查表性能改进方法、装置、设备和介质有效
申请号: | 202010094129.9 | 申请日: | 2020-02-15 |
公开(公告)号: | CN111312333B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 史宏志;赵健;崔星辰 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G06F16/22 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 刘小峰 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 bwt 性能 改进 方法 装置 设备 介质 | ||
本发明提供一种BWT查表性能改进方法、装置、设备和介质,方法包括:将参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值进行切分成短序列的操作;依次读取切分的短序列,并调用BWT查表过程对读取的短序列进行查询以获取对应的上下边界,将该上下边界与相应的短序列的对应关系填入映射关系表中;输入并读取测试基因序列,获取从当前读取位置开始的长度为最小完全匹配长度阈值的短序列,以将获取的短序列与映射关系表进行比对以获取对应的上下边界;响应于对比成功而获取对应的上下边界,继续对测试基因序列的短序列后的所有碱基执行BWT查表过程。本发明通过一次查表替换T次查询BWT索引表迭代过程,达到性能优化目的。
技术领域
本发明涉及计算机领域,并且更具体地,涉及一种BWT查表性能改进方法、装置、设备和介质。
背景技术
随着医疗科学的进步,精准医疗越来越接近普通人的生活,基因数据的处理作为基因诊断的重要环节之一,而基因数据比对是基因数据处理的前提。目前众多医疗机构和生物公司采用的数据比对方案多是采用基于BWT(Burrows Wheeler Transform,数据转换算法)算法的BWA基因数据比对软件对基因数据处理,该软件完全开源免费,具有比对精度高的优点,但相比于越来越庞大的基因测序仪下机数据而言性能稍显低下。
以BWA基因比对软件中关于BWT查表过程为例,一次成功的完全匹配映射过程中上下边界的确定,每个需要至少进行T(默认的最小完全匹配长度阈值)次循环迭代查询BWT索引表。以图1为例,简化版的查表索引过程,查询过程依次是g-gc-gca-gcaa-gcaac-gcaaca…。每一步的跳转都是依赖于前一步的计算结果,数据无法预取,并且数据访问位置在内存中不连续,是一种随机离散型的访存方式,效率比较低下。
即,在BWA原始的BWT实现中,一个短序列的匹配需要进行多次跳转迭代查询。map过程中,完全匹配的长度随输入的bp(碱基对)数量增加而增加,而每增加一个bp的输入,则要进行一系列的计算以及在BWT索引表上的跳转,这其中计算的消耗以及索引表跳转过程的随机访存造成整体性能的降低。
发明内容
鉴于此,本发明实施例的目的在于提出一种BWT查表性能改进方法、装置、设备和介质,以提升BWT索引表迭代过程,达到性能优化加速的目的。
基于上述目的,本发明实施例的一方面提供了一种BWT查表性能改进方法,包括以下步骤:
读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作;
依次读取所述切分的短序列,并调用BWT查表过程对所述读取的短序列进行查询以获取对应的上下边界,将所述查询到的上下边界与相应的所述短序列的对应关系填入映射关系表中;
输入并读取测试基因序列,获取从当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,以将所述获取的短序列与所述映射关系表进行比对,以获取其对应的上下边界;
响应于对比成功而获取对应的上下边界,继续对所述测试基因序列的所述短序列后的所有碱基执行BWT查表过程。
在一些实施方式中,所述方法还包括:
响应于比对失败而未能获取对应的上下边界,将所述测试基因序列的当前读取位置向后移动一个碱基对,获取从所述移动后的当前读取位置开始的长度为所述最小完全匹配长度阈值的短序列,并将所述获取的短序列进一步与所述映射关系表进行比对。
在一些实施方式中,读取参考基因序列,将所述参考基因序列从初始位置开始每隔1个碱基对重复执行按照预设的最小完全匹配长度阈值切分成短序列的操作包括:
初始化所述参考基因序列的当前位置为0,从所述当前位置开始读取长度为最小完全匹配长度阈值的短序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010094129.9/2.html,转载请声明来源钻瓜专利网。