[发明专利]基于分布式大数据块的海量内容存储系统和方法在审

专利信息
申请号: 202110321968.4 申请日: 2021-03-25
公开(公告)号: CN112948343A 公开(公告)日: 2021-06-11
发明(设计)人: 吝晓军 申请(专利权)人: 兴业数字金融服务(上海)股份有限公司
主分类号: G06F16/182 分类号: G06F16/182;G06F16/172;G06F3/06;G06F16/27
代理公司: 上海段和段律师事务所 31334 代理人: 李佳俊;郭国中
地址: 200120 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 分布式 数据 海量 内容 存储系统 方法
【说明书】:

本发明提供了一种基于分布式大数据块的海量内容存储系统和方法,包括:分布式存储模块:将整个分布式集群节点上的本地存储磁盘整合成统一的分布式存储介质,并将整合后的分布式存储介质进行格式化,划分为固定大小的存储块;文件块管理模块:管理格式化后的存储块,将存储块分配给文件读写模块读写具体的文件内容;文件元数据模块:存储文件元数据;文件读写模块:负责文件内容的读写;文件块碎片整理模块:监控文件存储块的碎片情况,并对文件存储块的碎片进行整理,将有效存储进行二次整合为完整存储块,然后释放原碎片存储块。本发明通过采用存储块将小文件合并存储,减少了文件数量,避免了传统文件系统面临inode的数量限制。

技术领域

本发明涉及数据存储技术领域,具体地,涉及一种基于分布式大数据块的海量内容存储系统和方法。

背景技术

现有技术大多采用内容存储实现企业内容存储,内容存储一般将文件元数据存在关系数据库中,将文件存储在文件系统上,如IBM的CM、FileNet CE等,但这些内容存储客观缺点在于:

1.海量的小文件元数据将会大量占用关系数据库的记录,导致关系数据库访问性能下降、数据备份、管理不方便,尤其针对存储时间周期长的文件。

2.大量小文件存储在文件系统上导致文件系统文件过多,文件目录过多,为了解决这个问题大部分产品采用hash散列划分文件目录,从而导致文件结构复杂,操作系统管理文件元数据过多。

3.为了保障数据可靠性,一般采用SAN架构存储实现统一存储和存储可靠性,导致成本过高,对应海量数据存储会越来越大,无法实现长期存储。

企业需要存储海量的业务电子文档、电子凭证等内容,由于内容文档较小、数量巨大,传统的文件系统和数据库存储无法满足,采用小文件合并数据块,为文件建立存储元数据,结合分布式存储集群可实现海量文件的存储及扩展。

专利文献CN110727686A(申请号:CN201911010903.7)公开了一种大数据块结构化存储方法,包括数据接收模块、中央处理器、自主分类处理单元,通过数据接收端口的数据接收模块统一接收多种数据类型的原始数据,数据接收模块将接收到的原始数据传输到中央处理器,利用多个自主分类处理单元进行分类,将经过分类的数据按照分类一一单独存储。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种基于分布式大数据块的海量内容存储系统和方法。

根据本发明提供的基于分布式大数据块的海量内容存储系统,包括:

分布式存储模块:将整个分布式集群节点上的本地存储磁盘整合成统一的分布式存储介质,并将整合后的分布式存储介质进行格式化,划分为固定大小的存储块;

文件块管理模块:管理格式化后的存储块,记录存储块的写偏移量、可用空间、状态,并将存储块分配给文件读写模块读写具体的文件内容;

文件元数据模块:存储文件元数据,文件元数据包括文件大小、文件SHA1、文件存储位置、文件存储大小和偏移量;

文件读写模块:负责文件内容的读写;

文件块碎片整理模块:监控文件存储块的碎片情况,并对文件存储块的碎片进行整理,将有效存储进行二次整合为完整存储块,然后释放原碎片存储块。

优选的,所述存储块作为分布式存储的一个单元有多副本,分布式存储模块提供副本技术,底层由分布式存储框架实现,分布式存储框架包括HDFS、GPFS、Ceph。

优选的,所述文件元数据模块在存储和读取文件时,采用分布式Nosql数据库,以文件对象ID为KEY存储和读取文件元数据。

优选的,所述文件读写模块中的写文件包括:

模块M1:写文件线程请求写入文件;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兴业数字金融服务(上海)股份有限公司,未经兴业数字金融服务(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110321968.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top