[发明专利]DNA序列完整性校验和纠错的编解码方法有效

专利信息
申请号: 202110102256.3 申请日: 2021-01-26
公开(公告)号: CN112802549B 公开(公告)日: 2022-05-13
发明(设计)人: 彭蓉;王天宇;崔竞松;齐浩;汪鹏程;薛慧;刘艺扬;李嘉伟 申请(专利权)人: 武汉大学
主分类号: G16B20/20 分类号: G16B20/20;G16B30/10
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 肖明洲
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: dna 序列 完整性 校验 纠错 解码 方法
【权利要求书】:

1.一种DNA序列完整性校验和纠错的编解码方法,其特征在于:由DNA完整性编码算法和DNA完整性解码算法两部分组成,包含如下步骤:

1)所述DNA完整性编码算法在编码端和解码端共有的共享参数下,利用密码子简并性,将待进行完整性保护的DNA序列的有效信息,投影到该DNA序列中装载完整性校验信息的氨基酸编码序列中,输出嵌入了完整性校验信息的DNA序列;

2)按照DNA完整性编码算法的输出合成DNA序列,合成的DNA序列在经过生物过程后进行测序,得到DNA序列的测序结果;

3)所述DNA完整性解码算法在相同的共享系统参数下,对DNA序列的测序结果进行解码,解码过程提供纠错能力,目标是在解码者所愿意承担的错误位数内,使DNA完整性解码算法的输出等于DNA完整性编码算法的输出,若目标无法达成,则DNA序列的错误碱基位数超出解码者所愿意承担的错误位数;

所述步骤1)中:编码,即完整性信息的嵌入;DNA编码者利用DNA完整性编码算法,使用编码者与解码者共享的密钥Key和密码子偏倚表Table_CodonBias,对待进行完整性保护的DNA序列S0进行运算,输出嵌入了完整性校验信息的DNA序列S1;包含:

步骤1.1:分割待进行完整性保护的DNA序列S0,记分割后DNA序列为S0′,

DNA编码者将S0中的装载完整性校验信息的部分和不装载完整性校验信息的部分分别作如下处理:

对于非氨基酸编码部分,按碱基划分,每个碱基为一个单元,用能唯一将其确定的特定标识表示;

对于氨基酸编码部分,每三个相邻碱基划分为一个单元,即每个氨基酸为一个单元,用能唯一将其确定的特定标识表示;

经过上述过程,由S0得到S0′,S0′共有(n1+n3)个单元,每个单元是一个碱基或一个氨基酸,用di来表示,i=0,1,...,n1+n3-1,

步骤1.2:逐单元对S0′求映射值

DNA编码者利用映射F,使用编码者与解码者共享的密钥Key和密码子偏倚表Table_CodonBias,对S0′中的第i个单元di进行运算得到映射值hi=F(Key,i,di,n3,Table_CodonBias),i=0,1,2,...,n1+n3-1;

所述映射F,有如下特征:

1)F的一个输出有n3段;

2)确定性,即每组合法输入对应唯一确定的输出,对于完全相同的两组输入,两输出应完全相同;

3)抗碰撞性,即任意两组不同输入,在任意相同位置输出相同的概率应尽可能小;

4)F的n3段输出,任意一个段的值与S0′的所有单元有关;

5)F的n3段输出,任意两段之间相关性低;

6)输入至少包含位置信息即序号i、单元内容的无歧义表示di、长度n3和密码子偏倚表Table_CodonBias,其中Table_CodonBias为必选参数,在一次对应的编码和解码过程中应使用相同的必选参数;

7)输入中应当允许可选函数的参与,也允许可选参数的缺席,并给以相应运算规则,如当Key参与运算时,一方面无法通过编码前后数据反推出Key的值;另一方面解码时若Key未知,则计算出正确映射值应工程上不可行;

步骤1.3:将(n1+n3)个映射值对齐,同一位置模数相同,对应位置作模为mod_aai的模加,i=0,1,2,...,n3-1,得到h;

DNA编码者将长度为n3段的映射值对齐,记S0′的氨基酸部分为那么对应每一段是一个模数,即不同位置的模数mod_aai可能相同也可能不同,取决于该位置的氨基酸种类;对齐后作每一段分别作模mod_aai加操作,记h=(h[0],h[1],...,h[n3-1]),则有:

其中,表示模mod_aai加操作;

步骤1.4:利用密码子偏倚表Table_CodonBias通过h=(h[0],h[1],...,h[n3-1])将投影到特定的密码子;

步骤1.5:得到纯碱基形式的嵌入了完整性校验信息的DNA序列S1

纯碱基形式的嵌入完整性校验信息的DNA序列经上述过程,完整性校验信息即被投影到部分或全部氨基酸编码序列中;

所述步骤2)中:生物过程和测序;

按照S1合成DNA序列,对该DNA序列进行一系列包括培养、扩增、存储的生物过程操作,对得到的DNA序列进行测序,得到DNA序列的测序结果S2

所述步骤3)中:解码,即完整性校验和纠错;

DNA解码者利用DNA完整性解码算法,使用编码者与解码者共享的密钥Key、密码子偏倚表Table_CodonBias和容许的最大试错代价位数max,对DNA序列的测序结果S2进行运算,输出布尔型完整性校验的结果result和经过校验和纠正的DNA序列的测序结果S3;包含:

步骤3.1:校验S2

调用校验方法V(S2);校验方法V将重复步骤1),其中,输入中的“待进行完整性保护的DNA序列S0”代入DNA序列的测序结果S2;记输出为S1′,比较S2与S1′是否完全相等;

若完全相等,则通过完整性校验,那么S2以极大概率未发生错误,以极小概率发生了错误,且完整性校验值发生了碰撞;令S3=S2,返回result=1,输出此时的S3和错误个数k,k初值为0,随进入步骤3.2的次数递增,若k≠0,另外输出还原方式c,c的生成方式在步骤3.2中描述;

若不完全相等,则无法通过完整性校验,那么S2必发生错误,进入步骤3.2;

步骤3.2:纠k位错;

k初始值为0,每次由步骤3.1进入步骤3.2,k的值加1,因此首次进入步骤3.2时,k=1,直到k>max;

调用纠错方法T(S2,k),纠错方法T采用试错的方式穷举纠错;

若k≤max,对于S2的任意k个位置逐一假设其发生了1位表3中的任意错误,并针对该种错误类型,用表3中的试错恢复方式,对S2进行试还原,记还原方式为c,记S2试还原后的结果为S2′,代入S2′重复步骤3.1;所述表3为生物过程可能引入的错误类型及其还原方式;其中包含3种错误类型,分别是替换错误即某一位置i上碱基被替换为其它碱基,插入错误即某一位置i上多了一个碱基,和删除错误即某一位置i上少了一个碱基;所述3种错误类型的试错恢复方式依次对应为:

替换错误的试错恢复方式:位置i之前的碱基保持不变;将位置i上碱基分别替换为其余三种碱基;位置i之后的碱基不变;

插入错误的试错恢复方式:位置i之前的碱基保持不变;位置i上的碱基删除位置i之后的碱基依次向前挪动一位;

删除错误的试错恢复方式:位置i之前的碱基保持不变;从位置i开始的所有碱基向后挪动一位;位置i上分别添加四种碱基;

若k>max,进入步骤3.3;

步骤3.3:纠错失败;

纠错失败,返回result=0,反馈实际出错位数超出容许的最大试错代价位数max。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110102256.3/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top