[发明专利]数据文件处理方法、装置、电子设备及存储介质在审
申请号: | 202110373852.5 | 申请日: | 2021-04-07 |
公开(公告)号: | CN113704204A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 方睿 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/172 | 分类号: | G06F16/172;G06F16/16;G06F16/182;G06N20/00 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 高天华;张颖玲 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据文件 处理 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种数据文件处理方法、装置、电子设备及计算机可读存储介质;方法包括:响应于针对数据文件的读取请求,调用文件读取接口对数据文件的读取请求进行解析,得到数据文件的标识;基于数据文件的标识遍历第一存储空间,确定数据文件的存储状态;当数据文件的存储状态表征数据文件已缓存时,基于数据文件的标识,从第一存储空间获取数据文件的元数据;基于数据文件的元数据,从第二存储空间获取数据文件的文件数据。通过本申请,能够加快数据文件的读取效率。
技术领域
本申请涉及计算机数据技术,尤其涉及一种数据文件处理方法、装置、电子设备及计算机可读存储介质。
背景技术
在大数据爆发的时代,通常存在海量的数据文件,例如计算机视觉方向需要用到上亿级别的数据文件进行模型训练,电商应用需要用到上万的商品图片信息进行商品展示,人员管理系统需要用到上千的人员照片信息进行签到等。
面对数据的大爆炸,相关技术将数据文件存储到文件服务器中。由于文件服务器存储了上千万个数据文件时,导致在需要读取某个数据文件时,读取速度远远满足不了现实的读取要求,相关技术缺乏高效的文件读取方法。
发明内容
本申请实施例提供一种数据文件处理方法、装置、电子设备及计算机可读存储介质,能够加快数据文件的读取效率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种数据文件处理方法,包括:
响应于针对数据文件的读取请求,调用文件读取接口对所述数据文件的读取请求进行解析,得到所述数据文件的标识;
基于所述数据文件的标识遍历第一存储空间,确定所述数据文件的存储状态;
当所述数据文件的存储状态表征所述数据文件已缓存时,基于所述数据文件的标识,从所述第一存储空间获取所述数据文件的元数据;
基于所述数据文件的元数据,从第二存储空间获取所述数据文件的文件数据。
上述技术方案中,所述基于所述数据文件的标识遍历第一存储空间,确定所述数据文件的存储状态之后,所述方法还包括:
当所述数据文件的存储状态表征所述数据文件未缓存时,基于所述数据文件的标识,调用所述文件读取接口从元数据服务器中获取所述数据文件的元数据;
基于所述数据文件的元数据,调用所述文件读取接口从文件服务器获取所述数据文件的文件数据。
上述技术方案中,所述基于所述数据文件的标识,调用所述文件读取接口从元数据服务器中获取所述数据文件的元数据之后,所述方法还包括:
将所述数据文件的元数据存储至所述第一存储空间,并
将所述数据文件的文件数据存储至所述第二存储空间。
上述技术方案中,所述将所述数据文件的元数据存储至所述第一存储空间,并将所述数据文件的文件数据存储至所述第二存储空间,包括:
遍历所述数据文件的历史日志,确定所述数据文件的读取频率;
当所述数据文件的读取频率大于读取频率阈值时,将所述数据文件的元数据存储至所述第一存储空间,并将所述数据文件的文件数据存储至所述第二存储空间。
上述技术方案中,所述将所述数据文件的元数据存储至所述第一存储空间,并将所述数据文件的文件数据存储至所述第二存储空间,包括:
对所述数据文件进行特征提取处理,得到所述数据文件的特征信息;
基于所述数据文件的特征信息进行预测处理,得到所述数据文件的缓存等级;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110373852.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、装置、电子设备及存储介质
- 下一篇:软件更新方法及装置