[发明专利]编码方法、解码方法、装置、终端设备及可读存储介质在审

申请号：	202110731619.X	申请日：	2021-06-29
公开（公告）号：	CN113539370A	公开（公告）日：	2021-10-22
发明（设计）人：	戴俊彪;卢明伟;黄小罗	申请（专利权）人：	中国科学院深圳先进技术研究院
主分类号：	G16B30/20	分类号：	G16B30/20;G16B30/00
代理公司：	深圳中一联合知识产权代理有限公司 44414	代理人：	左婷兰
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	编码方法解码装置终端设备可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请适用于存储技术领域，尤其涉及编码方法、解码方法、装置、终端设备及可读存储介质。该编码方法可以获取待编码数据的初始碱基序列；然后可以对初始碱基序列进行分组，得到初始碱基序列对应的至少一组中间碱基序列，并利用G与C的占比满足预设条件的第一预设碱基序列对中间碱基序列进行替换，得到待编码数据对应的编码文件。即本申请实施例提供的编码方法可以使得编码文件中的GC占比符合要求，降低DNA序列合成和测序的成本以及出错的概率，降低DNA存储的成本，扩大DNA存储的应用规模。

技术领域

本申请属于存储技术领域，尤其涉及编码方法、解码方法、装置、终端设备及计算机可读存储介质。

背景技术

脱氧核糖核酸(deoxyribonucleic acid，DNA)作为信息存储介质具有存储密度高、存储时间长以及损耗率低等特点，可以用于信息的大量存储。在DNA存储技术中，需要将待存储数据编码成DNA的碱基序列，然后可以根据碱基序列合成DNA，以将待存储数据存储至DNA中。其中，DNA编码技术是DNA存储中的关键技术。而现有的DNA编码技术会增加DNA合成及测序过程中出错的概率，不利于DNA存储技术的广泛应用。

发明内容

本申请实施例提供了一种编码方法、解码方法、装置、终端设备及计算机可读存储介质，可以解决现有的DNA编码技术会增加DNA合成及测序过程中出错的概率的问题，扩大DNA存储技术的应用范围。

第一方面，本申请实施例提供了一种编码方法，包括：

获取待编码数据的初始碱基序列；

对所述初始碱基序列进行分组，得到所述初始碱基序列对应的至少一组中间碱基序列；

利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换，得到所述待编码数据对应的编码文件，所述第一预设碱基序列中包含的G与C的占比满足预设条件。

通过上述的编码方法，可以获取待编码数据的初始碱基序列，并对初始碱基序列进行分组，得到中间碱基序列。然后可以利用GC占比符合预设条件的第一预设碱基序列对中间碱基序列进行替换，以使得所得到的编码文件中包含的GC占比符合要求，降低DNA序列合成和测序的成本以及出错的概率，降低DNA存储的成本，扩大DNA存储的应用规模。

示例性的，所述待编码数据为文本，所述获取所述待编码数据的初始碱基序列，包括：

统计所述文本中各字符的出现频率；

以各所述字符为叶子节点、以各所述字符的出现频率为该叶子节点的权值构建所述文本对应的四叉哈夫曼树；

将所述四叉哈夫曼树的每一条边用碱基表示，得到所述文本对应的编码表；

根据所述编码表确定所述文本对应的初始碱基序列。

示例性的，所述利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换，得到所述待编码数据对应的编码文件，包括：

利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换，得到目标碱基序列；

获取所述目标碱基序列中连续出现次数等于预设次数的重复碱基；

利用与所述重复碱基对应的第二预设碱基序列将所述重复碱基替换，得到所述待编码数据对应的编码文件。

具体地，所述对所述初始碱基序列进行分组，得到所述初始碱基序列对应的至少一组中间碱基序列，包括：

按照第一碱基数量对所述初始碱基序列进行分组，得到至少一组所述中间碱基序列，各所述中间碱基序列包括的碱基数量为所述第一碱基数量。

在第一方面的一种可能的实现方式中，所述方法还包括：