[发明专利]高通量测序背景下的基因数据处理方法、装置及相关设备在审
申请号: | 202211019556.6 | 申请日: | 2022-08-24 |
公开(公告)号: | CN115346605A | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 杨姣博;林培鑫;张优劲;刘朝熙;贺增泉;晋向前 | 申请(专利权)人: | 深圳华大医学检验实验室 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B50/50;G16B20/20;G16B20/50;G16B40/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 周伟 |
地址: | 518000 广东省深圳市盐田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通量 背景 基因 数据处理 方法 装置 相关 设备 | ||
1.一种高通量测序背景下的基因数据处理方法,其特征在于,包括:
当第一存储器的第一预留区域中的可用空间达到预设容量时,获取预设大小的基因数据块,并将所述基因数据块输入至所述第一存储器的第一预留区域中,其中,所述基因数据块为从测序平台实时传入的短序列集合,所述第一预留区域具备容纳N个基因数据块的能力,所述预设大小不大于所述预设容量;
基于所述基因数据块中各短序列的数据特性,对所述基因数据块进行压缩,得到基因数据压缩块,将所述基因数据压缩块保留在第一存储器的第二预留区域中,并从第一存储器中释放所述基因数据块,所述第二预留区域具备容纳M个基因数据压缩块的能力;
当第一存储器中的基因数据压缩块的数目达到J之后,将J个基因数据压缩块输出至第二存储器中,并从第一存储器中释放所述J个基因数据压缩块;
其中,N、M、J均为预设的自然数,且J不大于M。
2.根据权利要求1所述的方法,其特征在于,所述短序列包括元数据、碱基数据和质量数据;基于所述基因数据块中各短序列的数据特性,对所述基因数据块进行压缩的过程,包括:
利用预设的参考基因组对所述基因数据块中的碱基数据进行比对,并根据比对结果对所述基因数据块中的碱基数据进行压缩;
采用增量编码技术或游程长度编码技术对所述基因数据块中的元数据进行压缩;
通过预设的自适应模型确定基因数据块中的质量数据的复杂度,并基于所述复杂度确定第一目标阶数的上下文统计模型;
利用所述第一目标阶数的上下文统计模型对所述质量数据进行压缩,得到第一中间压缩结果;
采用游程长度编码技术、ANS+FSE编码技术、算术编码技术或哈夫曼编码技术对所述第一中间压缩结果进行压缩。
3.根据权利要求2所述的方法,其特征在于,所述利用预设的参考基因组对所述基因数据块中的碱基数据进行比对,并根据比对结果对所述基因数据块中的碱基数据进行压缩的过程,包括:
将所述基因数据块中的碱基数据划分成多个子序列;
采用哈希比对方法将每一子序列与预设的参考基因组进行比对,得到每一子序列的匹配信息,所述匹配信息包括错配值;
对于错配值小于或等于预设阈值的子序列,基于所述子序列的匹配信息,对所述子序列进行压缩;
对于错配值大于预设阈值的子序列:
通过预设的自适应模型确定所述子序列的复杂度,并基于所述复杂度确定第二目标阶数的上下文统计模型;
利用所述第二目标阶数的上下文统计模型对所述子序列进行压缩,得到第二中间压缩结果;
采用游程长度编码技术、ANS+FSE编码技术、算术编码技术或哈夫曼编码技术对所述第二中间压缩结果进行压缩。
4.根据权利要求3所述的方法,其特征在于,所述采用哈希比对方法将每一子序列与预设的参考基因组进行比对,得到每一子序列的匹配信息的过程,包括:
利用每一子序列的哈希值作为查询条件,在预设的哈希表进行查询,得到每一子序列的匹配信息;
其中,所述预设的哈希表记载有所述参考基因组中各参考子序列的哈希值以及各参考子序列在所述参考基因组中的位置信息,所述各参考子序列为从所述参考基因组划分得到的。
5.根据权利要求4所述的方法,其特征在于,从所述参考基因组划分得到各参考子序列的过程,包括:
以预设的步长从所述参考基因组中划分出长度为K、重叠的多个参考子序列,其中,K为预设的长度值。
6.根据权利要求2所述的方法,其特征在于,所述利用预设的参考基因组对所述基因数据块中的碱基数据进行比对的过程,包括:
采用BWT算法将所述基因数据块中的碱基数据与预设的参考基因组进行比对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华大医学检验实验室,未经深圳华大医学检验实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211019556.6/1.html,转载请声明来源钻瓜专利网。