[发明专利]基因组数据的存储传输备份管理方法及装置在审
申请号: | 202110367987.0 | 申请日: | 2021-04-06 |
公开(公告)号: | CN113204519A | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 马旭;陈翠霞;曹宗富;蔡瑞琨;李乾;殷哲 | 申请(专利权)人: | 国家卫生健康委科学技术研究所 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F16/13;G06F21/62;G06F11/10 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 黄玉东 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基因组 数据 存储 传输 备份 管理 方法 装置 | ||
1.一种基因组数据的存储传输备份管理装置,其特征在于,包括:
数据接收模块,用于接收用户上传的基因组数据文件;
校验核查模块,根据所述基因组数据文件的格式采用匹配的核查规则进行格式校验,并对所述基因组数据文件进行完整性检验;
传输存储模块,用于构建互联互通的本地集群和远程集群,在所述本地集群和/或所述远程集群中存储所述基因组数据文件,实现对所述基因组数据文件归档管理。
2.根据权利要求1所述的装置,其特征在于,所述数据接收模块包括:
线下接收单元,用于将包括所述基因组数据文件的存储介质与所述本地集群或所述远程集群中的节点连接,上传所述基因组数据文件;
线上接收单元,用于通过客户端将所述基因组数据文件上传至所述本地集群中节点的指定目录下或上传至所述远程集群的节点中,所述指定目录下的所述基因组数据文件仅对指定的用户公开;
所述基因组数据文件中包括用于表示基因组数据文件完整性的md5信息属性文件。
3.根据权利要求1或2所述的装置,其特征在于,所述本地集群和所述远程集群通过专网结合VPN相互连接。
4.根据权利要求2所述的装置,其特征在于,所述校验核查模块包括:
路由设置单元,用于设置多种数据路由方案,并根据用户上传基因组数据文件的方式选择其中一种数据路由方案执行所述基因组数据文件的上传流转;
规范化核查单元,用于调用与基因组数据文件格式匹配的核查规则对所述基因组数据文件进行格式校验,获取格式校验通过的基因组数据文件;
完整性核查单元,用于通过每个基因组数据文件对应的md5信息属性文件进行完整性校验,获取完整性检验通过的基因组数据文件。
5.根据权利要求4所述的装置,其特征在于,所述传输存储模块包括:
上传单元,用于根据所选的数据路由方案实现所述基因组数据文件在本地集群中的本地备份和/或在远程集群中的远程备份,所述本地备份和所述远程备份采用多任务并行处理方案;
增量备份单元,用于将源端准备上传的所述基因组数据文件定义为源文件,以及将目标端备份的所述基因组数据文件定义为目标文件,识别出源文件与目标文件的增量字节部分,然后仅将增量字节部分上传至目标端;
增量还原单元,用于根据目标端中接收的增量字节部分及对照的目标文件还原出源文件;
归档管理单元,用于将目标端还原的源文件备定义为目标文件后分类存储。
6.根据权利要求5所述的装置,其特征在于,识别出源文件与目标文件的增量字节部分,然后仅将增量字节部分上传至目标端的方法包括:
S1:将目标文件按照固定尺度切分成多个目标字节块并编号,采用弱校验和算法对各编号的目标字节块进行弱哈希计算,以及采用强校验和算法对各编号的目标字节块进行强哈希计算,同时将所述弱校验和算法、强校验和算法、目标字节块编号及对应的哈希值打包发送至源端;
S2:以所述固定尺度为窗口从源文件中的第1个字节开始截取源字节块并采用弱校验和算法进行弱哈希计算,在当前源字节块的弱哈希计算结果与任一目标字节块的弱哈希计算结果相同时,再采用强校验和算法进行强哈希计算,直至当前源字节块的强哈希计算结果与所述目标字节块的强哈希计算结果也相同时,对当前源字节块进行顺序编号并认为当前源字节块与目标字节块相同,同时记录所述当前源字节块与所述目标字节块的编号匹配关系,顺移至下一个固定尺度重新截取源字节块并重复上述哈希计算;
S3:在当前源字节块的弱哈希计算结果与任一目标字节块的弱哈希计算结果不同时,则以固定尺度为窗口顺移1个字节截取源字节块并采用弱校验和算法进行弱哈希计算,在当前源字节块的弱哈希计算结果与任一目标字节块的弱哈希计算结果相同时,再采用强校验和算法进行强哈希计算,直至当前源字节块的强哈希计算结果与所述目标字节块的强哈希计算结果也相同时,对当前源字节块进行顺序编号并认为当前源字节块与目标字节块相同,同时记录所述当前源字节块与所述目标字节块的编号匹配关系;
S4:提取源文件中未被匹配的字节作为增量字节部分,连同各未被匹配字节与各编号源字节块的关系一同上传至目标端。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家卫生健康委科学技术研究所,未经国家卫生健康委科学技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110367987.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置