[发明专利]一种DNA数据存储混合错误纠正与数据恢复方法有效
申请号: | 201910596136.6 | 申请日: | 2019-07-03 |
公开(公告)号: | CN110442472B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 陈为刚;黄刚;韩昌彩;杨晋生 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F11/10 | 分类号: | G06F11/10;G06F16/28 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 dna 数据 存储 混合 错误 纠正 恢复 方法 | ||
本发明公开了一种DNA数据存储混合错误纠正与数据恢复方法,包括:根据双端读段重叠部分的编辑距离、标号部分的校验信息是否正确两个标准对测序读段进行筛选;根据已恢复的标号和文件号将读段进行分簇,将簇内读段分割为中间重合部分和不重合部分两部分;若中间重合部分或不重合部分的副本数量大于设定的门限值,采用聚类的方法确定中心序列,否则通过多序列合并确定;将每个读段对应数据部分的碱基分成若干个预设长度片段,每一个片段根据列序号的奇偶与前后对应的片段进行联合纠错;纠错采用多序列合并最终得到重复码长度为预设长度片段的可靠恢复。本发明主要解决测序读段中存在的插入/删节错误,以及采用低测序覆盖读段的合并。
技术领域
本发明涉及利用脱氧核糖核酸(DNA)的数据存储领域,尤其涉及一种DNA数据存储混合错误纠正与数据恢复方法。
背景技术
脱氧核糖核酸(DNA)是一种由脱氧核糖和四种含氮碱基(包括腺嘌呤A、胸腺嘧啶T、胞嘧啶C、鸟嘌呤G)组成的双链结构,是所有生命的遗传信息载体,控制着生命的发育、延续以及生命机能运作,是自然界天然的、最重要的信息存储载体。随着生物技术的发展,尤其是DNA合成与测序技术的发展,利用DNA序列作为数字化数据信息存储载体,已经具有技术可行性。DNA数字信息存储指的是把数字化信息存储于DNA的碱基序列之中,用不同的碱基或碱基组合表示数据。该技术利用寡核苷酸合成仪或高通量的芯片合成技术合成完全人工设计的包含数字信息的DNA序列来存储数据,利用DNA测序仪来读取所存储的信息。
DNA作为存储介质,与现有的磁带、硬盘、光盘以及固态Flash等存储媒介相比具有体积小、密度大,信息保持时间持久等特点。在密度方面,根据有关研究机构的分析,认为DNA存储的密度与磁盘、磁带以及固态存储等相对都有7个数量级的提升;在保持时间方面,如果采用合适的强化存放方法,DNA分子可以存储上百年,甚至上万年。DNA存储的缺点是:合成和读取DNA所存储的数字化信息成本较高,但DNA分子的日常存储成本相对便宜。值得期待的是,目前DNA合成与测序技术发展迅速,其发展速度甚至超过了半导体领域的摩尔定律,因此未来合成和读取用于存储的DNA序列的成本有望大幅度降低,成为未来重要的颠覆性存储方法。
2013年1月,欧洲分子生物学实验室的生物信息学研究所(EMBL-BMI)的NickGoldman教授团队在Nature发表的论文中将英文语言文本、扩展ASCII码对照表的文本、一篇pdf格式论文、JPEG图片和MP3格式的音频文件成功的存储并读取。在保证可靠性方面,该方案中采用了较为简单的重复编码方案。Goldman教授建议的读取方法的基本流程为:首先,根据同一双端测序数据中两条读段的中间重合部分的91个碱基之间的汉明距离和奇偶校验信息对测序读段进行筛选;然后,根据标号和文件号对测序读段进行分簇,并通过大数合并的方法得到各簇的中心序列;进一步,通过大数合并的方法得到多重覆盖区域的中心序列;最后,将所有片段进行拼接,并将拼接后的序列进行解码得到计算机多媒体文件。
该方法已经在中国申请专利,发明人为尼克·高曼,约翰·伯尼,名称为“DNA中数字信息的高容量存储”,申请时间为2013年5月31日,申请号为201380028511,本发明主要针对该项专利发明的采用重复码的DNA数据存储方法,提供一种优化的读取数据处理与纠错恢复方法。
DNA扩增过程中随机错误除替代错误外,还包括插入(Insertion)和删节(Deletion)错误。尼克·高曼等提出的读取方法在数据筛选时使用汉明距离作为筛选条件,可能会将仅发生少量插入或者删节错误的读段舍弃,减少了用于数据恢复的样本数量,浪费了合成与测序资源。另一方面,在数据量较少时,直接使用大数合并的方法恢复数据,会造成数据恢复的可靠性降低;如果考虑读段中的插入或者删节错误,该合并方法无法有效工作。该方案采用了四重重复码方法,重复码的合并也存在类似问题。本发明在数据筛选时以编辑距离作为筛选条件,提高了数据的利用率;同时,在数据恢复时,使用聚类或多序列合并的方法,对编辑错误进行了纠正,保证了数据恢复的可靠性。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910596136.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置