[发明专利]基于多参考序列的基因序列分级压缩方法有效
申请号: | 201310433248.2 | 申请日: | 2013-09-22 |
公开(公告)号: | CN103546160A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | 熊红凯;李平好 | 申请(专利权)人: | 上海交通大学 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 郭国中 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 参考 序列 基因 分级 压缩 方法 | ||
1.一种基于多参考序列的基因序列分级压缩方法,其特征是,首先将BAM格式文件转化成SAM格式的文件,SAM格式的基因序列由11个强制域和多个可选域构成,将可选域作为第12个域,原文件按域提取成12个独立文件,然后对12个文件进行并行压缩:
(1)对‘Sequence’域采用基于多个参考序列逐步减半序列长度的分级压缩方法;
(2)对于‘Quality Value’域采用k均值聚类结合上下文建模PPMVC压缩的方法;
(3)对于剩下的十个域采用基于域内特征和域间相关性的压缩方法。
2.根据权利要求1所述的基于多参考序列的基因序列分级压缩方法,其特征是,所述对‘Sequence’域采用基于多个参考序列逐步减半序列长度的分级压缩方法,具体为:利用快速比对工具SOAP3将SAM/BAM文件的‘Sequence’域中的短序列分线程地与参考序列作比对,对于准确匹配序列高效压缩,对于非准确匹配和未匹配的短序列,将其序列长度减半,即一个序列分成长度相同的两个序列,并改变参考序列,再进行第二次比对,得到比对结果,如此重复三至四次结束,剩余的非准确匹配和未匹配的短序列进行PPMVC编码。
3.根据权利要求2所述的基于多参考序列的基因序列分级压缩方法,其特征是,所述的对于准确匹配序列高效压缩,具体为:对于准确比对的子序列Read,使用<Read编号,参考序列上重复发生的染色体号,参考序列上重复发生的偏移位置,重复类型>这四个量来替代目标序列上重复的子序列,分别使用差分编码+哈弗曼编码、游程编码、差分编码+哈弗曼编码和游程编码来压缩这四个分量。
4.根据权利要求1-3任一项所述的基于多参考序列的基因序列分级压缩方法,其特征是,所述的对于‘Quality Value’域采用k均值聚类结合上下文建模PPMVC压缩的方法,具体为:采用k均值聚类法将n个QASCII值聚成k类,使得聚类后每类内所有Quality value的值与聚类前的值差值平方最小,然后采用基于上下文建模和统计的自适应文本压缩方法PPMVC压缩聚类后的‘Quality Value’文件。
5.根据权利要求1-3任一项所述的基于多参考序列的基因序列分级压缩方法,其特征是,所述的对于剩下的十个域采用基于域内特征和域间相关性的压缩方法,具体为:
对于‘QNAME’域,用‘0’表示之前未出现过的QNAME,用逐渐递增的数字编号与当前位置只差表示之前已经出现的QNAME,然后采用哈弗曼编码压缩这些非均匀分布的小型数值;
对于‘FLAG’域,用一个字节表示1~255之间的数值,用三个字节即0,x/256和x%256表示其它数值,然后采用哈弗曼编码压缩变换后的数值;
对于‘RNAME’域,用相同的数字标记整个SAM文件中的相同的参考序列名字,记录下来所有参考序列,然后用游程编码进行压缩;
对于‘POS’域,采用差分编码+哈弗曼编码;
对于‘MAPQ’域,采用游程编码;
对于‘CIGAR’域,采用LZW字典压缩方法;
对于‘MRNM’域,采用游程编码;
对于‘MPOS’域,结合‘MRNM’域的字符串,采用差分编码+哈弗曼编码;
对于‘TLEN’域,‘TLEN’域的值与‘MPOS’域减去‘POS’域的值的差即TLEN-(MPOS-POS))的绝对值服从于一个有限的字符集,对于该域的压缩,结合‘POS’,‘MPOS’and‘MRNM’三个域的信息采用Huffman编码压缩变换后的值;
对于‘OPTIONAL’域,使用bzip2压缩工具。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310433248.2/1.html,转载请声明来源钻瓜专利网。