[发明专利]基于分布式文件系统的文件处理方法及装置在审
申请号: | 202110228934.0 | 申请日: | 2021-03-02 |
公开(公告)号: | CN113760827A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 江鹤 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/16;G06F16/182 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 王莉莉 |
地址: | 100176 北京市大兴区北京经济*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 文件系统 文件 处理 方法 装置 | ||
本公开涉及基于分布式文件系统的文件处理方法及装置、计算机可存储介质,涉及计算机技术领域。基于分布式文件系统的文件处理方法包括:从所述分布式文件系统中的多个文件目录中,选择多个候选文件目录;确定每个候选文件目录所包括的多个业务文件之间的不均匀率,所述不均匀率表征所述多个业务文件的文件大小之间的离散程度;根据与所述多个候选文件目录对应的不均匀率,对所述多个候选文件目录中的至少一个候选文件目录进行均匀化处理,使得所述至少一个候选文件目录所包括的多个业务文件均匀存储到所述分布式文件系统的各个数据块中。
技术领域
本公开涉及计算机技术领域,特别涉及基于分布式文件系统的文件处理方法及装置、计算机可存储介质。
背景技术
随着企业的各项业务的不断发展,其数据量也在持续增长。各项业务对应的各个业务单元所产生的数据通常会通过不同的业务渠道被抽取或加工到数据仓库中。数据仓库的业务文件主要被存储在分布式文件系统中。由于业务之间的形态存在差异,存储在数据仓库中的业务的文件大小会存在不均匀问题,这往往会导致分布式文件系统的存储性能下降,并产生分布式计算中的倾斜问题。
相关技术中,对于分布式文件系统中的每个文件目录,在该文件目录所包括的多个业务文件的文件大小的平均值小于数据块的块大小的情况下,以块大小作为文件大小来优化多个业务文件,从而使得文件大小大于块大小的业务文件被拆分出来的部分被合并到文件大小小于块大小的业务文件中。即,通过小文件合并这种减少文件数和块数的方式,降低文件目录的不均匀程度。
发明内容
相关技术中,通过计算文件目录中的多个业务文件的文件大小的平均值,并比较平均值和数据块的块大小的方式,无法识别出所有存在业务文件的文件大小之间不均匀的文件目录,存在一定局限性。
针对上述技术问题,本公开提出了一种解决方案,可以准确识别出不均匀的文件目录,降低由于不均匀问题导致的分布式文件系统中的数据倾斜问题出现的概率,提高分布式文件系统的存储性能。
根据本公开的第一方面,提供了一种基于分布式文件系统的文件处理方法,包括:从所述分布式文件系统中的多个文件目录中,选择多个候选文件目录;确定每个候选文件目录所包括的多个业务文件之间的不均匀率,所述不均匀率表征所述多个业务文件的文件大小之间的离散程度;根据与所述多个候选文件目录对应的不均匀率,对所述多个候选文件目录中的至少一个候选文件目录进行均匀化处理,使得所述至少一个候选文件目录所包括的多个业务文件均匀存储到所述分布式文件系统的各个数据块中。
在一些实施例中,确定每个候选文件目录所包括的多个业务文件之间的不均匀率包括:计算所述每个候选文件目录所包括的多个业务文件的文件大小的相对平均偏差,作为与所述每个候选文件目录对应的不均匀率。
在一些实施例中,计算所述每个候选文件目录所包括的多个业务文件的文件大小的相对平均偏差包括:计算所述多个业务文件的文件大小的平均值,作为总平均值;确定所述多个业务文件中、文件大小小于所述总平均值的业务文件为第一业务文件;确定所述多个业务文件中、文件大小大于或等于所述总平均值的业务文件为第二业务文件;分别确定所述第一业务文件的数量和所述第二业务文件的数量;计算所述第一业务文件的文件大小的平均值和所述第二业务文件的文件大小的平均值,分别作为第一均值和第二均值;根据所述总平均值、所述第一均值、所述第二均值、所述第一业务文件的数量和所述第二业务文件的数量,计算所述相对平均偏差。
在一些实施例中,根据与所述多个候选文件目录对应的不均匀率,对所述多个候选文件目录中的至少一个候选文件目录进行均匀化处理包括:对与所述多个候选文件目录对应的不均匀率进行排序;对不均匀率最大的前M个候选文件目录中的每个候选文件目录进行均匀化处理,M为正整数。
在一些实施例中,根据与所述多个候选文件目录对应的不均匀率,对所述多个候选文件目录中的至少一个候选文件目录进行均匀化处理包括:对不均匀率大于不均匀率阈值的每个候选文件目录进行均匀化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110228934.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于头肩检测的多目标跟踪方法
- 下一篇:风机装置