[发明专利]编码方法、解码方法、装置、终端设备及可读存储介质在审
申请号: | 202110731619.X | 申请日: | 2021-06-29 |
公开(公告)号: | CN113539370A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 戴俊彪;卢明伟;黄小罗 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G16B30/20 | 分类号: | G16B30/20;G16B30/00 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 左婷兰 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 编码 方法 解码 装置 终端设备 可读 存储 介质 | ||
1.一种编码方法,其特征在于,包括:
获取待编码数据的初始碱基序列;
对所述初始碱基序列进行分组,得到所述初始碱基序列对应的至少一组中间碱基序列;
利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换,得到所述待编码数据对应的编码文件,所述第一预设碱基序列中包含的G与C的占比满足预设条件。
2.如权利要求1所述的方法,其特征在于,所述待编码数据为文本,所述获取所述待编码数据的初始碱基序列,包括:
统计所述文本中各字符的出现频率;
以各所述字符为叶子节点、以各所述字符的出现频率为该叶子节点的权值构建所述文本对应的四叉哈夫曼树;
将所述四叉哈夫曼树的每一条边用碱基表示,得到所述文本对应的编码表;
根据所述编码表确定所述文本的初始碱基序列。
3.如权利要求1所述的方法,其特征在于,所述利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换,得到所述待编码数据对应的编码文件,包括:
利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换,得到目标碱基序列;
获取所述目标碱基序列中连续出现次数等于预设次数的重复碱基;
利用与所述重复碱基对应的第二预设碱基序列将所述重复碱基替换,得到所述待编码数据对应的编码文件。
4.如权利要求1所述的方法,其特征在于,所述对所述初始碱基序列进行分组,得到所述初始碱基序列对应的至少一组中间碱基序列,包括:
按照第一碱基数量对所述初始碱基序列进行分组,得到至少一组所述中间碱基序列,各所述中间碱基序列包括的碱基数量为所述第一碱基数量。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:
获取所述初始碱基序列中的单独碱基序列,其中,所述单独碱基序列为对所述初始碱基序列进行分组后,得到的碱基数量小于所述第一碱基数量的碱基序列;
根据所述第一碱基数量和所述单独碱基序列对应的第二碱基数量确定需添加的第三碱基数量,并在所述单独碱基序列的预设位置添加所述第三碱基数量的碱基。
6.如权利要求5所述的方法,其特征在于,所述在所述单独碱基序列的预设位置添加所述第三碱基数量的碱基,包括:
根据GCAT的顺序在所述单独碱基序列的预设位置添加所述第三碱基数量的碱基。
7.如权利要求5所述的方法,其特征在于,所述单独碱基序列为所述初始碱基序列头部的碱基序列或者为所述初始碱基序列尾部的碱基序列。
8.如权利要求5所述的方法,其特征在于,所述预设位置为所述单独碱基序列的头部或者末尾。
9.如权利要求5至8中任一项所述的方法,其特征在于,所述利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换,得到所述待编码数据对应的编码文件,包括:
利用与至少一组所述中间碱基序列一一对应的第一预设碱基序列将至少一组所述中间碱基序列替换,并将替换后的中间碱基序列与单独碱基序列进行合并,得到目标碱基序列;
获取所述目标碱基序列中连续出现次数等于预设次数的重复碱基;
利用与所述重复碱基对应的第二预设碱基序列将所述重复碱基替换,得到所述待编码数据对应的编码文件。
10.如权利要求9所述的方法,其特征在于,所述预设次数为4次,所述重复碱基与第二预设碱基序列之间的对应关系包括以下至少一种:
GCATG对应GGGG;
GCATC对应CCCC;
GCATA对应AAAA;
GCATT对应TTTT。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110731619.X/1.html,转载请声明来源钻瓜专利网。