[发明专利]一种基于分布式存储的数据传输校验方法及系统有效
申请号: | 202110370802.1 | 申请日: | 2021-04-07 |
公开(公告)号: | CN113259410B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 王盈;蒋德钧;熊劲 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | H04L67/1097 | 分类号: | H04L67/1097;H04L1/00 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 存储 数据传输 校验 方法 系统 | ||
本发明提出一种基于分布式存储的数据传输校验方法和系统,包括:将写入数据和该写入数据对应的原始校验码发送至数据服务器;该数据服务器将该写入数据存入存储设备,使用该原始校验码检查从该存储设备中读出的该写入数据的正确性。检查数据在整个操作路径中出现的错误,保证了数据操作的可靠性。以及将大粒度访问文件的校验码嵌入到文件数据块索引中,将小粒度访问文件的校验码嵌入到文件数据块中,以降低校验码操作带来的I/O开销。
技术领域
本发明涉及分布式存储技术领域,并特别涉及一种基于分布式存储的数据传输校验方法及系统。
背景技术
分布式文件系统被广泛的用于提供数据存取服务。为了支持应用操作,目前已经有很多分布式文件系统,分别服务于HPC应用(如OrangeFS,XtreemFS和BeeGFS),服务于MapReduce应用(如GlusterFS)以及服务于云计算应用(如Ceph),服务于PolarDB数据库(如PolarFS)。图3展示了分布式文件系统架构。分布式文件系统包括客户端(用户态库或者内核模块)、元数据服务器和数据服务器。元数据服务器维护文件系统的名字空间并且记录文件数据的存储位置。数据服务器存储文件数据。应用通过客户端与数据服务器交互完成文件的读写操作。数据服务器经过分布式层协议(分布式层,例如保证分布式文件系统数据三副本一致性),最终由存储后端引擎将数据存储于存储设备(如HDD,SSD和非易失性主内存NVMM)中,完成数据的存取操作。现有的分布式文件系统广泛利用本地文件系统作为存储后端引擎。
在数据的存取过程中,数据经过客户端、通过网路传输给数据服务器,最后经过数据服务器的分布式层和存储后端处理,存储在存储设备中。在这些过程中,分布式文件系统多使用校验码检查数据的正确性,保证数据存取的可靠性。
校验码是存储系统提供数据可靠性的重要手段,被广泛的应用在分布式文件系统和本地文件系统中(包括本地文件系统和专用的存储后端,如ceph的BlueStore)。在现有的分布式文件系统中,如HDFS,GFS以及百度的分布式文件系统,校验码被用于检查数据在网络传输和存储设备中的错误。校验码的实现主要有如下一种方式:
技术方案:图4展示了现有分布式文件系统执行写操作时校验码的操作流程。客户端在执行写操作时,将数据和数据对应的校验码(CheckSum,CS)一起发送给数据服务器。在接收到请求后,数据服务器中的分布式层(例如HDFS和GFS)使用校验码检查数据在网络传输过程中的错误(第①步)。随后,数据服务器将数据和校验码存储在存储设备中以便在随后的操作中检查数据的正确性。最常见的存储校验码方法是给每个文件分配一个对应的校验码文件,记录校验码值。如图4所示,一个log文件会有一个对应的log.cs文件。为了方便管理,在存储后端中记录的校验码值通常都是按照固定的粒度,如每4KB数据记录一个校验码值。由于写请求的数据量和后端引擎中记录校验码的粒度通常不同,例如写请求的粒度为1KB而校验码是按照4KB数据粒度记录的,分布式层通常需要重新计算校验码(第②步),然后通过存储后端引擎将数据和新的校验码值写入到存储设备中(第③步)。
在执行读操作时,分布式层首先检查数据在本地存储中是否出现错误。该过程需要读取本地存储设备中的数据,计算校验码并且和已经存储的校验码值进行比较。一旦不相同,则数据出现错误。否则,分布式层对读取的数据根据需要重新计算校验码。最后,分布式层将读取的数据和对应的校验码值返回给客户端。然而,现有的操作方式存在三个问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110370802.1/2.html,转载请声明来源钻瓜专利网。