[发明专利]一种基于分布式KV数据库的离线存储系统有效
申请号: | 202110667411.6 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113377868B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 张想;单震;李仰允 | 申请(专利权)人: | 浪潮卓数大数据产业发展有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F11/14 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 张传伟 |
地址: | 214029 江苏省无锡市滨*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分布式 kv 数据库 离线 存储系统 | ||
1.一种基于分布式KV数据库的离线存储系统,其特征在于:包括客户端和服务端,所述服务端包括元数据中心和离线存储中心,所述离线存储中心包括若干数据节点,其中:
所述元数据中心用于保存集群的元数据,且提供集群元数据管理分发;
所述离线存储中心用于集群数据的离线存储,且通过分布式存储的方式存储在每个数据节点中;
元数据中心和离线存储中心均与客户端建立通讯链接,客户端先从元数据中心获取访问数据库所需的元数据,再通过获取的元数据与离线存储中心进行通信,访问数据,离线存储中心之间的数据节点之间也存在通讯连接;
所述离线存储中心与Hadoop的HDFS之间建立有通讯链接,通过数据下载器定时监听HDFS的数据目录,下载最新的数据文件到离线存储中心的数据库中。
2.根据权利要求1所述的系统,其特征在于:所述数据节点的存储架构包括接口层、缓存层和存储层,其中:
所述接口层用于建立外部连接,包括与客户端的连接、与其他数据节点之间的连接和与原数据中心的连接;
所述缓存层用于数据库的读取缓存;
所述存储层用于进行数据离线存储。
3.根据权利要求2所述的系统,其特征在于:还配置有离线存储检索引擎,所述离线存储检索引擎的离线存储的只读索引在外部对key进行排序,组织成树形索引,树形索引中叶子节点为内容,索引文件通过4K进行内存对齐。
4.根据权利要求3所述的系统,其特征在于:所述数据下载器监听HDFS目录下是否有新版本数据,如果有就新建一个数据对象并且设置为等待下载的状态并且进入到下载阶段,提交到任务队列中,在数据下载阶段会检测当前数据是否为正在下载的状态,如果正在下载或是当前数据已下载完毕会跳过当前任务重新进行扫描;如果没有新版本数据就结束流程;数据下载器下载的数据通过数据导入器从临时目录移动到装载目录中,进行等待数据装载,在正式进行数据装载之前,首先会通过当前的元数据来判断当前分区是否在自身节点上以及该数据的版本是否是元数据中的目标版本,如果不在说明在下载的过程中发生了rebalance或者当前数据是一个过期的数据,这个时候就会停止装载数据,把数据状态设置为等待卸载状态等待后续的数据删除,如果是一个符合版本的数据,那么会通过连接请求使执行数据装载,当数据装载成功之后进入已装载状态,当检测到新版本数据装载到服务组件中,此时会通知服务组件卸载数据进入等待卸载状态等待后续的数据删除操作。
5.根据权利要求4所述的系统,其特征在于:数据导入器通知服务组件卸载数据,服务组件不会立即卸载数据,服务组件需要等待数据库分片占用的共享锁释放后才会返回给数据导入器,同时把数据对象设置为卸载状态,此时数据处于一种等待删除的状态,此时会需要重新确认分区和版本信息,并且进入到等待删除的状态,当磁盘空间不足或处于等待删除的状态超过一段时间,数据将会被删除。
6.根据权利要求5所述的系统,其特征在于:所述缓存层采用LRU缓存策略,每次查询数据库之前都会有限查询LRU缓存,当查询到对应的数据时就不再需要执行后续的查询逻辑,直接返回给调用方,且将所述LRU缓存采用哈希表和链表结构的方式。
7.根据权利要求6所述的系统,其特征在于:所述存储层的数据文件排列表包括文件头、协议层、数据长度、解压层和数据内容,所述协议层中引入数据压缩功能,并配置有数据压缩算法,且所述解压层与协议层所配置的数据压缩算法为相匹配的解压算法。
8.根据权利要求7所述的系统,其特征在于:所述存储层包括DataBlock、Index、IndexTree、SDBPartition和SDBTable,所述DataBlock是数据文件类,根据索引查到的偏移量进行具体的值的查询,IndexTree是索引层,是多个Index的聚合,SDBTable是表类,跟SDBPartition是聚合关系,多个分区聚合成了一个表,且设置有SDBTableManager用于管理SDBTable的类,负责SDBTable整个生命周期的管理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮卓数大数据产业发展有限公司,未经浪潮卓数大数据产业发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110667411.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于多头特征协作的小样本图像分类方法
- 下一篇:一种数据内容确权方法及系统