[发明专利]基因测序数据的压缩方法在审

专利信息
申请号: 201810040658.3 申请日: 2018-01-16
公开(公告)号: CN108306650A 公开(公告)日: 2018-07-20
发明(设计)人: 俞容山 申请(专利权)人: 厦门极元科技有限公司
主分类号: H03M7/40 分类号: H03M7/40;G06F19/22;G06F19/28
代理公司: 厦门市新华专利商标代理有限公司 35203 代理人: 李宁
地址: 361000 福建省厦门市自*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 质量数据 基因测序 测序数据 利用基因 统计特性 压缩效率 压缩 熵编码 重复 改写 统计
【权利要求书】:

1.基因测序数据的压缩方法,其特征在于,包括:

将质量数据序列改写成{q,r}的形式,其中q为质量数据,r为该质量数据的重复次数;

分别用不同的统计属性对质量数据q和重复次数r进行熵编码。

2.如权利要求1所述的基因测序数据的压缩方法,其特征在于,采用基于上下文建模编码的方式对质量数据q和重复次数r进行编码,具体包括:

设待编码的序列为s={s0,s1,s2,…,sn,…},对每个待编码的符号sn,首先选择与它的概率分布函数相关的信息作为它的上下文模型c;可选的上下文模型选择包含:

1)在sn之前出现的符号{si|n-L<i<n};

2)符号sn的位置n;

3)和序列s分布相关其他序列;

在选择了上下文模型后,通过预扫描的办法或自适应的办法,建立不同上下文模型下sn的概率分布函数P(sn|c);

根据P(sn|c)对sn进行熵编码。

3.如权利要求1所述的基因测序数据的压缩方法,其特征在于,还包括:

对系列标识进行tokenize操作;

对tokenize操作后得到的数据{xi|i=1,…,N}进行移位处理,得到高位数据{hi=xi&gt;>L|i=1,…,N}和低位数据{li&(1<<L-1}|i=1,…,N},其中,L是一个大于或等于0的整数,代表移位量,&gt;&gt;和&lt;&lt;分别代表右移和左移操作;

对高位数据{hi|i=1,…,N}进行熵编码;

对低位数据{li|i=1,…,N}不编码进行直接传输。

4.如权利要求3所述的基因测序数据的压缩方法,其特征在于,对高位数据{hi|i=1,…,N}进行熵编码具体包括:

使用预扫描的办法先建立起经验概率函数P(h),

P(h)=|{hi|hi=h;i=1,…,N}|/N;其中,操作符|·|表示计算集合里面元素的个数;

再使用得到的经验概率函数P(h)利用算术编码对高位数据{hi|i=1,…,N}进行编码。

5.如权利要求4所述的基因测序数据的压缩方法,其特征在于:利用经验概率函数P(h)对高位数据{hi|i=1,…,N}中的h1进行编码之后,在每次编码hi,i=2,…,N之前,都利用之前编码过的hi-1的值对P(h)进行更新,更新方式为:

若h=hi-1,则P’(h)=(KP(h)+1)/(K+1),;

否则,P’(h)=KP(h)/(K+1);

其中,K为一个大于0的常数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门极元科技有限公司,未经厦门极元科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810040658.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top