[发明专利]一种DNA数据存储混合错误纠正与数据恢复方法有效
申请号: | 201910596136.6 | 申请日: | 2019-07-03 |
公开(公告)号: | CN110442472B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 陈为刚;黄刚;韩昌彩;杨晋生 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F11/10 | 分类号: | G06F11/10;G06F16/28 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 dna 数据 存储 混合 错误 纠正 恢复 方法 | ||
1.一种DNA数据存储混合错误纠正与数据恢复方法,其特征在于,所述方法包括:
步骤(1)对双端读取序列中的一条读段进行反转互补,获取两条有重叠的读段;
步骤(2)根据双端读段重叠部分的编辑距离、标号部分的校验信息是否正确两个标准对测序读段进行筛选;
步骤(3)根据已恢复的标号和文件号将读段进行分簇,将簇内读段分割为中间重合部分和不重合部分;
步骤(4)若中间重合部分或不重合部分的副本数量大于设定的门限值,使用聚类的方法确定中心序列,否则通过多序列合并确定;
步骤(5)将每个读段对应数据部分的碱基分成若干个预设长度片段,每一个片段根据序列序号的奇偶与前后对应的片段进行联合纠错;纠错采用多序列合并最终得到重复码长度为预设长度片段的可靠恢复。
2.根据权利要求1所述的一种DNA数据存储混合错误纠正与数据恢复方法,其特征在于,所述步骤(2)具体为:
计算双端读段中间重合部分之间的编辑距离,保留编辑距离小于设定门限值的双端读段;
根据标号部分序列恢复标号并对其进行校验,保留校验正确的双端读段。
3.根据权利要求2所述的一种DNA数据存储混合错误纠正与数据恢复方法,其特征在于,所述根据标号部分序列恢复标号并对其进行校验,保留校验正确的双端读段具体为:
根据标号部分序列恢复标号;检验双端测序中标号部分的奇偶校验信息,若校验正确,保留当前双端读段,并记录该双端读段的标号及文件号;否则,丢弃该双端读段。
4.根据权利要求1所述的一种DNA数据存储混合错误纠正与数据恢复方法,其特征在于,所述步骤(4)具体为:
计算簇内不重合部分副本数量,若副本数量大于设定的门限值,则使用聚类的方法确定中心序列;否则,针对编辑错误,通过多序列合并确定中心序列;
计算簇内中间重合部分副本数量,若副本数量大于设定的门限值,则使用聚类的方法确定中心序列;否则,针对编辑错误,通过多序列合并得到中心序列;
将不重合部分和中间重合部分的中心序列合并,得到当前簇的中心序列。
5.根据权利要求1所述的一种DNA数据存储混合错误纠正与数据恢复方法,其特征在于,所述步骤(5)具体为:
(5.1)依次选取片段所对应的副本;
(5.2)判断当前副本所在读段对应的文件号的奇偶,若文件号为奇数,则将对应的副本进行反转互补;
(5.3)判断片段对应的副本是否全部选取完毕,若存在未选取的副本,则返回执行步骤(5.1);否则,针对插入、删节与替代错误,通过多序列合并实现重复码片段的纠错恢复。
6.根据权利要求1或4所述的一种DNA数据存储混合错误纠正与数据恢复方法,其特征在于,所述多序列合并具体为:
(6.1)分别计算当前段中各副本与其它副本之间的编辑距离之和;将编辑距离之和最小的副本作为参考序列,其它副本作为待处理片段;
(6.2)将与参考序列之间编辑距离大于等于设定删除门限的待处理片段删除,分别计算各待处理片段与参考序列的编辑距离,若编辑距离小于设定的门限值,则保留该待处理片段;否则在当前段中删除;
(6.3)计算当前段中副本数量,若副本数量小于3,则将参考序列作为中心序列,流程结束;否则,将参考序列作为中心序列,初始化其他序列与中心序列的编辑距离,执行步骤(6.4);
(6.4)依次选取待处理片段,递归计算当前待处理片段与参考序列在各节点的编辑距离d(xi,yj),并记录上一节点的位置pointer(i,j);
(6.5)回溯,处理编辑错误,从节点(n,n)出发,通过利用pointer(i,j)中的信息,寻找一条到达节点(0,0)的最大似然路径并同步处理此路径上的插入、删节错误,若pointer(i,j)=(i-1,j),则表示待处理片段发生删节,从当前碱基连同后续碱基右移一个碱基位置,空出的位置填零补充;若pointer(i,j)=(i,j-1),则表示发生插入,将当前碱基在片段中删除,后续碱基左移一个碱基位置;由此,得到一条当前待处理片段的新的序列副本;
(6.6)判断待处理片段是否全部处理完毕,若存在未处理的片段,则返回执行步骤(6.4);否则,将各待处理片段处理编辑错误后新生成的副本和参考序列进行大数合并得到中心序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910596136.6/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置