[发明专利]数据迁移校正方法及系统有效
申请号: | 201610930983.8 | 申请日: | 2016-10-31 |
公开(公告)号: | CN107037978B | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 宋立华;苏江文;王秋琳;张垚 | 申请(专利权)人: | 福建亿榕信息技术有限公司;国家电网公司;国网浙江省电力公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 福州市景弘专利代理事务所(普通合伙) 35219 | 代理人: | 林祥翔;吕元辉 |
地址: | 350000 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 迁移 校正 方法 系统 | ||
本申请涉及数据迁移,特别涉及大型数据和特大型数据迁移和校正方法。本申请提供一种数据迁移校正的方法和系统,其中方法应用于具有控制器的系统中,控制器连接源数据服务器、目标数据服务器,包括步骤:源数据服务器存储有迁出文件,目标数据服务器具有未使用的存储空间,用于存放迁出文件,按源数据服务器的处理器核的个数的整数倍,将迁出文件划分为多个数据块,源数据服务器计算,获得每个数据块分别对应的数字摘要A;将数据摘要A保存于控制器中;并将迁出文件发送至目标数据服务器;在目标数据服务器中,在迁出文件转移的过程中平行计算经过数据迁移后的迁出文件中的数据块的数据摘要B;比较数据摘要A和数据摘要B是否相同;本申请用于解决大数据迁移时完整性校验的问题,其可靠性高、速度快。
技术领域
本申请涉及数据迁移,特别涉及大型数据和特大型数据迁移和校正方法。
背景技术
随着大数据的时代的到来,企业各信息化系统不断产生海量的数据,在对存储基础设施提出要求的同时,也对数据迁移技术及其实施提出高要求。另一方面,根据数据的形态及特点不同,通常可以将企业中的数据分为结构化数据和非结构化数据。结构化数据是指存储在关系型数据库中,可以用二维表结构来表达的数据类型,通常由各信息化系统产生,以文本格式存储在关系数据库中的数据;非结构化数据,是指与结构化数据相比,不方便采用二维表结构来表达的数据类型即称为非结构化数据,可包括各种主流格式的办公文档、图片、XML、HTML、各类报表、图像和音频,通常以文件的形式存储。根据Gather的调查报告,企业中非结构化数据占比超过80%。所以,针对非结构化数据的数据迁移是企业实施数据迁移的重要方面。
所谓数据迁移,是指一个依靠软件支持的、从源程序将数据迁移到目标应用程序的过程,其核心包括三个环节,分别是:原数据清洗、数据转换、数据完整性检测。作为数据迁移核心环节之一的原数据清洗环节主要负责将原数据中出现二义性性、重复、不完整、违反业务或逻辑规则等问题的数据进行相应的清洗操作,获得符合业务规则的数据;数据转换环节是将原数据结构(格式)转换为目标数据结构(格式);而数据完整性检测阶段,是确保数据迁移完成后,数据仍然保持完整性,避免在迁移过程中造成数据损坏、丢失。在上述针对数据迁移的三个环节中,原数据清洗、数据转换通常适用于结构化数据,对非结构化数据不适用;而但数据迁移过程的完整性检测,则是实施非结构化数据迁移的重要保障,也是影响非结构化数据迁移性能、质量的重要方面。
数据完整性检测,可以是避免数据迁移过程中数据丢失、数据损坏、数据语义改变、人为篡改等数据完整性遭到破坏的情况的手段发生,由于数据完整性遭到破坏会给整个数据迁移项目带着致命的危害,所以一直都是数据迁移实施的重点。现有的数据迁移完整性检测方法,存在性能较低或完整性检测不完备等情况。
现有数据迁移校正方法由于迁移前后文件位于不同的服务器或存储,无法再对两个文件进行逐一比对。所以,在实际数据迁移应用中,通常为:通过采用比对原文件和迁移后的文件大小是否一致,判断迁移是否是完整的,如图1所示,或通过比对原文件和迁移后的文件的CRC或MD5校验值和迁移后的文件的CRC或MD5校验值是否一致等方式,判断迁移是否是完整的。
然而,比对原文件和迁移后的文件大小的方式不能完全保证数据丢失、数据损坏、数据语义改变、人为篡改等各类数据不完整情况的发生。以文件长度为例,即使文件大小相同,也有可能因为部分字节的错位导致文件无法正常打开、使用。
同样比对原文件的CRC或MD5校验值和迁移后的文件的CRC或MD5校验值等方式((即数据迁移过程包括3个过程:数据传输的过程、数据传输完成后计算迁移文件的MD5值的过程和比对前后MD5值是否相同的过程),导致数据迁移过程的耗时过长,迁移效率低,不适用于大规模的非结构化数据迁移项目。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建亿榕信息技术有限公司;国家电网公司;国网浙江省电力公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司,未经福建亿榕信息技术有限公司;国家电网公司;国网浙江省电力公司;国网信息通信产业集团有限公司;国网信通亿力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610930983.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置