[发明专利]一种基因参考序列的去冗余优化方法及系统有效
申请号: | 201811591686.0 | 申请日: | 2018-12-25 |
公开(公告)号: | CN109658985B | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 李根;宋卓;徐霞丽;冯博伦;赵丽霞;黄能超;毛海波;马丑贤;杨耀 | 申请(专利权)人: | 人和未来生物科技(长沙)有限公司 |
主分类号: | G16B50/50 | 分类号: | G16B50/50 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 邹大坚;谭武艺 |
地址: | 410000 湖南省长沙市长沙高*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 参考 序列 冗余 优化 方法 系统 | ||
本发明公开了一种基因参考序列的去冗余优化方法及系统,针对基因参考序列,本发明通过按照指定步长遍历获取指定长度的连续参考序列Kmer,然后通过哈希桶将连续参考序列Kmer进行分散、选择性去冗余,再重新组装,从而在能够尽可能的减少参考序列Kmer的个数的同时保证连续参考序列Kmer的质量,本发明能够在保证尽量不减少压缩率的前提下减少基因参考序列的冗余度,精简出更适合的参考序列,使得优化后的基因参考序列体积更小,被用于做压缩参考索引时加载内存更快,从而提高基因数据的压缩效率。
技术领域
本发明涉及生物信息技术领域的FASTQ数据的压缩技术,具体涉及一种基因参考序列的去冗余优化方法及系统,用于实现基因参考序列的去冗余优化。
背景技术
通过FASTA生成的基因参考序列(ACTG),长度通常在10G至20G之间,存在下述技术问题:其一、档大,不利于存储;其二、当该档被用于做压缩参考索引时,将该文件从硬盘加载到内存需要消耗一定的时间,且服务器需要有足够的系统资源,这在一定程度上降低了压缩效率。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基因参考序列的去冗余优化方法及系统,本发明能够在保证尽量不减少压缩率的前提下减少基因参考序列的冗余度,精简出更适合的参考序列,使得优化后的基因参考序列体积更小,被用于做压缩参考索引时加载内存更快,从而提高基因数据的压缩效率。
为了解决上述技术问题,本发明采用的技术方案为:
一种基因参考序列的去冗余优化方法,实施步骤包括:
1)针对基因参考序列通过按照指定步长遍历获取指定长度的连续参考序列Kmer;
2)计算各个连续参考序列Kmer的哈希值,然后将哈希值与(2n - 1)做与逻辑运算后在预设的哈希桶中确定对应的槽位,并将连续参考序列Kmer在整个基因参考序列中的偏移量插入该槽位中,且记录发生冲突的槽位,所述哈希桶的槽位数为2n,n为自定义的自然数;
3)针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测,最终将冗余的连续参考序列Kmer删除,非冗余的连续参考序列Kmer保留且其对应的偏移量也需写入哈希桶对应的槽位;
4)基于保留下来的连续参考序列Kmer实现基因参考序列组装。
可选地,步骤2)中记录发生冲突的槽位具体是指针对发生冲突的槽位将对应的连续参考序列Kmer按照顺序采用链地址的方式记录;步骤3)中针对发生冲突的槽位的各个连续参考序列Kmer进行冗余检测的详细步骤包括:判断链地址中的各个连续参考序列Kmer是否冗余,如果任意连续参考序列Kmer在链地址为第一个元素,则判定该连续参考序列Kmer为非冗余;否则,在基因参考序列中从连续参考序列Kmer的起始位置获取指定长度N_read_size的基因序列A,从链地址其他所有连续参考序列Kmer的起始位置分别获取指定长度N_read_size的基因序列B(B1,..., Bn),如果基因序列A与基因序列B(B1-Bn)中所有成员的海明距离都大于预设阈值则判定该连续参考序列Kmer为非冗余,否则判定该连续参考序列Kmer为冗余。
可选地,步骤4)的详细步骤包括:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer均为非冗余,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
可选地,步骤4)的详细步骤包括:以指定长度N_read_size为单位遍历基因参考序列,如果某个指定长度N_read_size的区间内所有连续参考序列Kmer为非冗余的比例大于预设阈值,则将该指定长度N_read_size的区间的基因序列组装进新的基因参考序列,遍历完毕后最终得到新的基因参考序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人和未来生物科技(长沙)有限公司,未经人和未来生物科技(长沙)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811591686.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有防尘功能的带PTC断电复位温控装置
- 下一篇:正极极片及电池