[发明专利]文件存储与管理方法及系统在审
| 申请号: | 202011341043.8 | 申请日: | 2020-11-25 |
| 公开(公告)号: | CN112380178A | 公开(公告)日: | 2021-02-19 |
| 发明(设计)人: | 雷伟 | 申请(专利权)人: | 北京明略软件系统有限公司 |
| 主分类号: | G06F16/172 | 分类号: | G06F16/172;G06F16/31 |
| 代理公司: | 青岛清泰联信知识产权代理有限公司 37256 | 代理人: | 赵燕 |
| 地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文件 存储 管理 方法 系统 | ||
本申请涉及文件存储与管理技术领域,特别是涉及文件存储与管理方法、系统、电子设备及存储介质。其中,该方法包括以下步骤:文件存储步骤,根据使用需求存储非结构化数据文件到对应的文件系统;文件管理步骤,通过程序代码对文件系统进行统一的维护管理以对非结构化数据文件进行CRUD操作或直接调用。通过设置管理层实现对多类型文件存储方式的调用,解决了当前不同数据源需要额外进行部署的问题,实现了通用的数据文件元信息管理方式,并供上层数据治理应用获取非结构化文件。
技术领域
本申请涉及文件存储与管理技术领域,特别是涉及文件存储与管理方法及系统。
背景技术
在当前大数据时代,在数据处理的过程当中,我们我们更多的需要对接,这就驱使我们往这些方向发展。
在当前的大数据时代,数据处理过程中,所面对的数据源不仅仅是mysq,oracle,hive,pgsql之类的结构化数据源,还包括客户的txt,excel,word等等文本类非结构化数据源,这就驱使对非结构化文件的存储与处理进行研究。
在数据治理过程当中,面对源源不断的各种各类的文本类数据源,需要针对不同的数据源进行管理,结构复杂,且缺少一个统一的管理调用平台。
目前针对上述问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文件存储与管理方法及系统,本方法针对不同类型的数据源提出了一种通用的数据源元数据管理方式,以供上层数据治理应用能够像获取结构化数据一样获取非结构化数据。以至少解决相关技术中的问题。
第一方面,本申请实施例提供了一种文件存储与管理方法,包括以下步骤:
文件存储步骤,根据使用需求存储非结构化数据文件到对应的文件系统;
文件管理步骤,通过程序代码对所述文件系统进行统一的维护管理以对所述非结构化数据文件进行CRUD操作或直接调用。
在其中一些实施例中,所述文件系统为hdfs文件系统、ftp文件系统和fs文件系统之任一或任意组合。
在其中一些实施例中,当所述文件系统为hdfs文件系统时,所述文件存储步骤包括:
配置hdfs文件源路径;
根据所述hdfs文件源路径同步数据源,并自行形成文件元信息存储在内存元数据库中;
所述文件管理步骤包括:
通过所述文件元信息对所述非结构化数据文件进行信息查看、下载和第三方调用。
在其中一些实施例中,当所述文件系统为ftp文件系统时,所述文件存储步骤包括:
在ftp传输协议下上传并存储所述非结构化数据文件;
对所述非结构化数据文件的文件元信息进行二次处理;
所述文件管理步骤包括:
通过所述文件元信息对所述非结构化数据文件的批量操作和统一调用。
在其中一些实施例中,所述文件元信息包括但不限于文件大小、权限和文件名称、文件全路径,副本数。
在其中一些实施例中,当所述文件系统为fs文件系统时,所述文件存储步骤包括:
创建并读取文件列表,完成所述非结构化数据文件的上传及存储;
所述文件管理步骤包括:
通过所述文件列表对所述非结构化数据文件进行文件元信息浏览、文件下载及第三方调用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011341043.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种太阳能电板的清理及装载机构
- 下一篇:一种施工工具安全装置





