[发明专利]基于纠删码的编码方法、分布式系统、设备及存储介质在审
| 申请号: | 202111574369.X | 申请日: | 2021-12-21 |
| 公开(公告)号: | CN114385409A | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 魏舒展;赵亚飞;顾隽清;董元元;陈亮 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
| 主分类号: | G06F11/10 | 分类号: | G06F11/10 |
| 代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 李威 |
| 地址: | 310052 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 纠删码 编码 方法 分布式 系统 设备 存储 介质 | ||
本说明书一个或多个实施例提供一种基于纠删码的编码方法、分布式系统、设备及存储介质,所述方法包括:获取待处理数据的K个数据块;将所述K个数据块划分成L组数据组;其中,每组数据组至少包括与所述K个数据块分别对应的K个编码参数;其中,K、L为大于1的整数;对于每组数据组,利用其它数据组中的至少部分数据块和本组数据组中与所述至少部分数据块对应的编码参数进行编码,生成本组数据组的部分校验块;其中,所述数据组及所述部分校验块存储在分布式系统的数据节点中。本实施例在保证了用户数据安全性的同时,降低了数据丢失或者异常时需要进行数据恢复的IOPS的放大。
技术领域
本说明书一个或多个实施例涉及计算机数据处理领域,尤其涉及一种基于纠删码的编码方法、分布式系统、设备及存储介质。
背景技术
分布式系统的存储规模正在变得越来越大,分布式系统是多个数据节点通过通信线路互联而构成的松散耦合的系统。
纠删码(Erasure Code)是一种编码容错技术,它的基本原理是把存储的数据分片,并将分片得到的k份原始数据通过一定的校验计算方式生成k+m份数据,并能通过k+m份中的任意k份数据,还原为原始数据。这样即使部分数据丢失,分布式系统仍然能将原始数据恢复出来。
纠删码技术可以在保证数据可靠性的前提下,最小化系统的存储开销,因此为了降低数据对分布式系统的存储空间占用,纠删码技术被应用到分布式系统的数据存储中。
但是,基于现有的纠删码技术所存储的数据,当出现部分数据丢失的情况时,系统需要读取足够多的数据才能恢复出用户所需数据,一方面将导致IOPS(Input/Output PerSecond,每秒的输入输出量)的放大,另一方面也大量消耗了数据修复时的带宽。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种基于纠删码的编码方法、分布式系统、设备及存储介质。
为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种基于纠删码的编码方法,所述方法包括:
获取待处理数据的K个数据块;
将所述K个数据块划分成L组数据组;其中,每组数据组至少包括与所述K个数据块分别对应的K个编码参数;其中,K、L为大于1的整数;
对于每组数据组,利用其它数据组中的至少部分数据块和本组数据组中与所述至少部分数据块对应的编码参数进行编码,生成本组数据组的部分校验块;其中,所述数据组及其部分校验块存储在分布式系统的数据节点中。
可选地,所述方法还包括:
对于每组数据组,根据所述K个数据块和所述K个编码参数进行编码,生成本组数据组的全局校验块;或者,在利用其他数据组中的全部数据块生成本组数据组的一个或多个部分检验块的情况下,根据本组数据组中的数据块和对应的编码参数、以及所述一个或多个部分检验块生成本组数据组的全局校验块。
可选地,还包括:
在生成所述全局校验块之后,获取与所述L组数据组对应的L组编码组;每组所述编码组包括其中一组所述数据组的数据块、所述部分校验块和所述全局校验块;
将所述L组编码组存储在分布式系统的数据节点中。
可选地,所述分布式系统布局在多AZ环境中,每个AZ包括有一个或多个数据节点;
其中,每个AZ对应至少一组编码组,所述至少一组编码组存储在该AZ中的一个或多个数据节点中。
可选地,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111574369.X/2.html,转载请声明来源钻瓜专利网。





