[发明专利]基因测序数据的压缩方法在审
申请号: | 201810040658.3 | 申请日: | 2018-01-16 |
公开(公告)号: | CN108306650A | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 俞容山 | 申请(专利权)人: | 厦门极元科技有限公司 |
主分类号: | H03M7/40 | 分类号: | H03M7/40;G06F19/22;G06F19/28 |
代理公司: | 厦门市新华专利商标代理有限公司 35203 | 代理人: | 李宁 |
地址: | 361000 福建省厦门市自*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 质量数据 基因测序 测序数据 利用基因 统计特性 压缩效率 压缩 熵编码 重复 改写 统计 | ||
1.基因测序数据的压缩方法,其特征在于,包括:
将质量数据序列改写成{q,r}的形式,其中q为质量数据,r为该质量数据的重复次数;
分别用不同的统计属性对质量数据q和重复次数r进行熵编码。
2.如权利要求1所述的基因测序数据的压缩方法,其特征在于,采用基于上下文建模编码的方式对质量数据q和重复次数r进行编码,具体包括:
设待编码的序列为s={s0,s1,s2,…,sn,…},对每个待编码的符号sn,首先选择与它的概率分布函数相关的信息作为它的上下文模型c;可选的上下文模型选择包含:
1)在sn之前出现的符号{si|n-L<i<n};
2)符号sn的位置n;
3)和序列s分布相关其他序列;
在选择了上下文模型后,通过预扫描的办法或自适应的办法,建立不同上下文模型下sn的概率分布函数P(sn|c);
根据P(sn|c)对sn进行熵编码。
3.如权利要求1所述的基因测序数据的压缩方法,其特征在于,还包括:
对系列标识进行tokenize操作;
对tokenize操作后得到的数据{xi|i=1,…,N}进行移位处理,得到高位数据{hi=xi>>L|i=1,…,N}和低位数据{li&(1<<L-1}|i=1,…,N},其中,L是一个大于或等于0的整数,代表移位量,>>和<<分别代表右移和左移操作;
对高位数据{hi|i=1,…,N}进行熵编码;
对低位数据{li|i=1,…,N}不编码进行直接传输。
4.如权利要求3所述的基因测序数据的压缩方法,其特征在于,对高位数据{hi|i=1,…,N}进行熵编码具体包括:
使用预扫描的办法先建立起经验概率函数P(h),
P(h)=|{hi|hi=h;i=1,…,N}|/N;其中,操作符|·|表示计算集合里面元素的个数;
再使用得到的经验概率函数P(h)利用算术编码对高位数据{hi|i=1,…,N}进行编码。
5.如权利要求4所述的基因测序数据的压缩方法,其特征在于:利用经验概率函数P(h)对高位数据{hi|i=1,…,N}中的h1进行编码之后,在每次编码hi,i=2,…,N之前,都利用之前编码过的hi-1的值对P(h)进行更新,更新方式为:
若h=hi-1,则P’(h)=(KP(h)+1)/(K+1),;
否则,P’(h)=KP(h)/(K+1);
其中,K为一个大于0的常数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门极元科技有限公司,未经厦门极元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810040658.3/1.html,转载请声明来源钻瓜专利网。