[发明专利]分布式系统数据处理方法、装置、设备及介质在审
申请号: | 202210868227.2 | 申请日: | 2022-07-22 |
公开(公告)号: | CN115114239A | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 陈浩鹏 | 申请(专利权)人: | 济南浪潮数据技术有限公司 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/16;G06F16/182 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王晓坤 |
地址: | 250101 山东省济南市自由贸易试验区*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 系统 数据处理 方法 装置 设备 介质 | ||
本申请涉及数据处理技术领域,公开了一种分布式系统数据处理方法、装置、设备及介质,应用于内核客户端,该方法包括:接收文件读指令;解析文件读指令,确定待读取文件的属性信息;判断待读取文件是否具有聚合属性;若否,则直接对待读取文件进行读操作;若是,则根据待读取文件的元数据打开对应的聚合大文件,在聚合大文件的相应位置读取待读取文件的数据。这样内核客户端在进行文件操作时,一方面不会影响对不带有分级聚合属性文件的读操作,另一方面可以对文件分级聚合后的聚合大文件采用直读的方式进行读操作,进而通过间接操作聚合大文件达到操作小文件的目的,避免产生大文件的缓存。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种分布式系统数据处理方法、装置、设备及介质。
背景技术
随着云计算、云原生、互联网等技术的发展,存储及读写的数据量日益增大,而不同数据的存储和读写方式是不同的,另外用户对于数据的访问频率不同,文件存放的位置也会不同。通常情况下将访问频率高的文件放置于快池,将访问频率低的文件放置于慢池,以达到合理利用资源的目的;这里的快池一般是由固态硬盘(Solid State Disk,SSD)创建的存储池,慢池一般是由硬盘驱动器(Hard Disk Drive,HDD)创建的存储池。
特定场景下,用户操作的主要为小文件,在存储系统中会出现海量的小文件,为了提升性能和存储空间,广泛采取将小文件聚合为大文件,聚合后的大文件由一个个4MB的对象组成,每个对象中前8KB是inode(索引节点)位图,按文件排列顺序存放着小文件的inode号,剩余位置存放着大量小文件,文件以4KB空间存储;同时将大文件迁移到HDD慢池中。目前通过内核客户端对分布式文件系统的操作基本局限在普通文件,可以正常的读写等操作,但是对于海量小文件经过分级聚合后形成的大文件则不能进行正常的访问和读写。
因此,如何解决目前内核客户端对文件分级聚合后的大文件不能进行正常访问和操作的问题,是本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本发明的目的在于提供一种分布式系统数据处理方法、装置、设备及介质,可以通过间接操作聚合大文件达到操作小文件的目的,避免产生大文件的缓存。其具体方案如下:
一种分布式系统数据处理方法,应用于内核客户端,包括:
接收文件读指令;
解析所述文件读指令,确定待读取文件的属性信息;
判断所述待读取文件是否具有聚合属性;
若否,则直接对所述待读取文件进行读操作;
若是,则根据所述待读取文件的元数据打开对应的聚合大文件,在所述聚合大文件的相应位置读取所述待读取文件的数据。
优选地,在本发明实施例提供的上述分布式系统数据处理方法中,所述根据所述待读取文件的元数据打开对应的聚合大文件,包括:
根据所述待读取文件的元数据确定对应的聚合大文件的索引节点编号;
根据所述索引节点编号打开所述聚合大文件。
优选地,在本发明实施例提供的上述分布式系统数据处理方法中,所述在所述聚合大文件的相应位置读取所述待读取文件的数据,包括:
查询所述待读取文件对应的小文件在所述聚合大文件中的偏移位置;
根据所述偏移位置,确定所述小文件;
读取所述小文件中所述待读取文件的数据。
优选地,在本发明实施例提供的上述分布式系统数据处理方法中,在所述读取所述小文件中所述待读取文件的数据之前,还包括:
判断所述小文件的起始读取位置距离所述小文件头部的长度与所述待读取文件的长度之和是否大于所述小文件的总长度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南浪潮数据技术有限公司,未经济南浪潮数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210868227.2/2.html,转载请声明来源钻瓜专利网。