[发明专利]基于标签数据生长基因的数据序列处理方法在审
申请号: | 202110581056.0 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113035282A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 白杰 | 申请(专利权)人: | 江苏数字产权交易有限公司 |
主分类号: | G16B50/40 | 分类号: | G16B50/40;G16B50/50 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 211800 江苏省南京市中国(江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 标签 数据 生长 基因 序列 处理 方法 | ||
本发明提供了基于标签数据生长基因的数据序列处理方法,包括数据序列中标签数据生长基因的提取方法,该方法使用数据序列S扫描标签数据库,得到一组标签数据段及该数据段在数据序列S中的位置,用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数,记录这些本次扫描结果参数,然后在数据序列S中去除所述标签数据段,用剩余数据段组装成新的数据序列S重新扫描,最后组织每一次扫描结果参数,生成原始数据序列S的生长基因序列。本发明还提供了基于标签数据生长基因的数据存储方法和数据存储方法。
技术领域
本发明涉及数据处理方法,特别涉及处理包含大量数据的数据序列的方法。
背景技术
在任何形式的计算机系统中,数据的存储和传输都是重要的任务。例如,网络中的数据在被传输前,为了减少实际传输的数据量,通常需要对待传输的数据进行压缩,以减少网络传输资源的占用以及减少传输失败的机会,提高数据传输的效率。通常,我们在希望数据存储的可靠和安全的同时,还希望能够尽可能少地占用存储资源,然而这是难以两全的一对矛盾。数据的可靠意味着要有一定的冗余,数据的安全通常靠编码实现对数据的加密计算,这些通常都是以多占用存储资源为基础的。
在数据传输的各个层次,减少传输重复数据的传输都具有重要意义。而减少数据重复传输的关键,在于如何获知哪些数据是重复的,以及在数据接收端迅速且无瑕疵地恢复数据发送端的原始数据。对于静态数据,即内容确定的数据集合,如果能够获知需要重复传输的数据或数据集合,为重复的数据分配一个标签或标识,就可以用所述标签替代重复的数据进行传输,从而减少数据的重传以及在数据接收端恢复原始数据。而且,标签的长度和重复数据长度的比值越小,数据传输效率就越高。
在一个数据集合中找到标签能够替代的数据段的过程,就是在数据传输前对其实施的一种处理过程。现有的数据压缩或预处理方法,通常认为一个数据集合中存在的重复“倾向于大量出现短语式的重复,而且重复倾向于出现在离当前压缩位置较近的地方,重复长度倾向于比较短(20字节以内)”,重复的字节越短,重复的概率越高。例如目前广为流行的ZIP压缩算法,就是以“短字节”的重复为基础的。然而,这样就可能导致重复的“短字节”标签的长度和重复的“短字节”的数据长度比值变大,使得高重复概率的“短字节”并不一定导致数据序列的高压缩率,因此,这种方法的压缩效果是有限的,尤其在数据重复特征明显的领域,难以与数据特征结合达到更好的数据压缩效果。
实际上,在包含大量数据的数据序列中,仍然存在着数据的构成规律,即数据序列的生长基因或构成基因,如果将这些基因提取出来,将有利于数据序列的压缩、存储以及加密等操作。
发明内容
本发明解决的问题是,提供基于标签数据生长基因的数据序列处理方法,该方法包括数据序列中标签数据生长基因的提取方法、基于标签数据生长基因的数据存储方法和基于标签数据生长基因的数据压缩方法。
其中,数据序列中标签数据生长基因的提取方法的一个实施例的操作是:通过数据序列S对标签数据库进行扫描,获取一组标签数据段以及所述标签数据段在数据序列S中的位置,判断获取的所述标签数据段是否为有效标签数据段,若获取的是有效标签数据段,用所述标签数据段对应的标签及其在数据序列S中的位置作为本次扫描结果参数,记录这些本次扫描结果参数,其中,所述标签为生长基因,标签在数据序列S中的位置为生长参数,在数据序列S中去除所述标签数据段,用剩余数据段组装成新的数据序列S,再次从通过数据序列S对标签数据库进行扫描,获取一组标签数据段以及所述标签数据段在数据序列S中的位置的步骤开始,循环所述在数据序列中提取标签数据生长基因的方法。若得到的是无效标签数据段,组织每一次扫描结果参数,生成原始数据序列S的生长基因序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏数字产权交易有限公司,未经江苏数字产权交易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110581056.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置