[发明专利]基于分布式大数据块的海量内容存储系统和方法在审
申请号: | 202110321968.4 | 申请日: | 2021-03-25 |
公开(公告)号: | CN112948343A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 吝晓军 | 申请(专利权)人: | 兴业数字金融服务(上海)股份有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/172;G06F3/06;G06F16/27 |
代理公司: | 上海段和段律师事务所 31334 | 代理人: | 李佳俊;郭国中 |
地址: | 200120 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 数据 海量 内容 存储系统 方法 | ||
本发明提供了一种基于分布式大数据块的海量内容存储系统和方法,包括:分布式存储模块:将整个分布式集群节点上的本地存储磁盘整合成统一的分布式存储介质,并将整合后的分布式存储介质进行格式化,划分为固定大小的存储块;文件块管理模块:管理格式化后的存储块,将存储块分配给文件读写模块读写具体的文件内容;文件元数据模块:存储文件元数据;文件读写模块:负责文件内容的读写;文件块碎片整理模块:监控文件存储块的碎片情况,并对文件存储块的碎片进行整理,将有效存储进行二次整合为完整存储块,然后释放原碎片存储块。本发明通过采用存储块将小文件合并存储,减少了文件数量,避免了传统文件系统面临inode的数量限制。
技术领域
本发明涉及数据存储技术领域,具体地,涉及一种基于分布式大数据块的海量内容存储系统和方法。
背景技术
现有技术大多采用内容存储实现企业内容存储,内容存储一般将文件元数据存在关系数据库中,将文件存储在文件系统上,如IBM的CM、FileNet CE等,但这些内容存储客观缺点在于:
1.海量的小文件元数据将会大量占用关系数据库的记录,导致关系数据库访问性能下降、数据备份、管理不方便,尤其针对存储时间周期长的文件。
2.大量小文件存储在文件系统上导致文件系统文件过多,文件目录过多,为了解决这个问题大部分产品采用hash散列划分文件目录,从而导致文件结构复杂,操作系统管理文件元数据过多。
3.为了保障数据可靠性,一般采用SAN架构存储实现统一存储和存储可靠性,导致成本过高,对应海量数据存储会越来越大,无法实现长期存储。
企业需要存储海量的业务电子文档、电子凭证等内容,由于内容文档较小、数量巨大,传统的文件系统和数据库存储无法满足,采用小文件合并数据块,为文件建立存储元数据,结合分布式存储集群可实现海量文件的存储及扩展。
专利文献CN110727686A(申请号:CN201911010903.7)公开了一种大数据块结构化存储方法,包括数据接收模块、中央处理器、自主分类处理单元,通过数据接收端口的数据接收模块统一接收多种数据类型的原始数据,数据接收模块将接收到的原始数据传输到中央处理器,利用多个自主分类处理单元进行分类,将经过分类的数据按照分类一一单独存储。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于分布式大数据块的海量内容存储系统和方法。
根据本发明提供的基于分布式大数据块的海量内容存储系统,包括:
分布式存储模块:将整个分布式集群节点上的本地存储磁盘整合成统一的分布式存储介质,并将整合后的分布式存储介质进行格式化,划分为固定大小的存储块;
文件块管理模块:管理格式化后的存储块,记录存储块的写偏移量、可用空间、状态,并将存储块分配给文件读写模块读写具体的文件内容;
文件元数据模块:存储文件元数据,文件元数据包括文件大小、文件SHA1、文件存储位置、文件存储大小和偏移量;
文件读写模块:负责文件内容的读写;
文件块碎片整理模块:监控文件存储块的碎片情况,并对文件存储块的碎片进行整理,将有效存储进行二次整合为完整存储块,然后释放原碎片存储块。
优选的,所述存储块作为分布式存储的一个单元有多副本,分布式存储模块提供副本技术,底层由分布式存储框架实现,分布式存储框架包括HDFS、GPFS、Ceph。
优选的,所述文件元数据模块在存储和读取文件时,采用分布式Nosql数据库,以文件对象ID为KEY存储和读取文件元数据。
优选的,所述文件读写模块中的写文件包括:
模块M1:写文件线程请求写入文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兴业数字金融服务(上海)股份有限公司,未经兴业数字金融服务(上海)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110321968.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置