[发明专利]大数据环境下基于HBase的异构数据库在线交换与共享系统有效
申请号: | 201710042815.X | 申请日: | 2017-01-20 |
公开(公告)号: | CN107045534B | 公开(公告)日: | 2018-06-05 |
发明(设计)人: | 薛惠锋;刘瑞;佟轶;张博;胡泉;孙毅方;占敏;孙运乾;杨越;李雪巍 | 申请(专利权)人: | 中国航天系统科学与工程研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 臧春喜 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异构数据库 数据转换模块 语义 共享 数据采集模块 数据分发模块 数据融合模块 统一 访问组件 共享系统 数据投递 数据映射 在线交换 大数据 数据库访问接口 交换 目标数据库 中间数据库 海量数据 历史数据 模块建立 模型融合 数据转换 映射关系 自动在线 字段数据 采集源 时间戳 数据库 存储 | ||
1.大数据环境下基于HBase的异构数据库在线交换与共享系统,其特征在于:包括异构数据库统一访问组件、数据采集模块、数据映射模块、数据转换模块、数据融合模块、数据分发模块以及数据投递模块;
异构数据库统一访问组件:为各异构数据库提供统一的数据库访问接口;
数据采集模块:根据交换与共享的需求以及预设的抽取策略,通过异构数据库统一访问组件采集源数据库中的数据,发送给数据转换模块,所述抽取策略包括抽取时间间隔、是否全表抽取;
数据映射模块:建立各个异构数据库与统一语义共享模型之间的映射关系,提供给数据转换模块;
所述数据映射模块建立源数据库与统一语义共享模型映射关系的实现方法如下:
步骤一,判断源数据库类型,类型为关系型数据库则转步骤四,为HBase数据库则执行步骤二;
步骤二,获取源数据库数据表结构,包括行键、列簇、列和列簇策略信息,进入步骤三;
步骤三,HBase中间数据库数据表采用相同的表结构,进行列映射,进入步骤十;
步骤四,获取源数据库数据表结构,包括主键、字段、数据类型、默认值信息,进入步骤五;
步骤五,判断源数据库数据表是否为单一主键,是则执行步骤六,若为多主键则进入步骤七;
步骤六,将主键直接作为HBase中间数据库行键,进入步骤八;
步骤七,按照以下公式将多主键拼接后作为HBase中间数据库行键,进入步骤八:
R=f1(K1)+S+f2(K2)+S+…+S+fn(Kn)
其中R表示HBase中间数据库行键,Ki表示源数据库第i个数据表的主键,i=1,2…n,fi(Ki)为将主键Ki的数据类型转为字符串类型的转换函数,S为主键拼接分割符;
步骤八,将源数据库数据表中各个字段的数据类型映射为统一语义共享模型中通用数据类型,并根据映射后的通用数据类型,将源数据库数据表各个字段映射到HBase中间数据库的列簇中,各字段与列簇中的列一一对应,且列簇中的列名称与对应字段名称相同,进入步骤九;
步骤九,针对HBase中间数据库各列簇特点,为各列簇设置策略,所述策略包括压缩策略、辅助索引策略、事务策略、缓存策略或版本策略,进入步骤十;
步骤十,操作者检查映射关系和策略是否符合需求,符合则映射流程结束,否则执行步骤十一;
步骤十一,操作者根据实际需求,手动调整列簇划分、映射关系及各项策略;
所述数据映射模块建立统一语义共享模型与目标数据库映射关系的实现方法如下:
步骤一,判断目标数据库类型,类型为关系型数据库则转步骤四,为HBase数据库则执行步骤二;
步骤二,获取目标HBase数据库数据表结构,包括行键、列簇和列信息,进入步骤三;
步骤三,根据目标HBase数据库数据表列名,建立与HBase中间数据库数据表列之间的映射关系,进入步骤九;
步骤四,获取目标数据表结构,包括主键、字段和数据类型信息,进入步骤五;
步骤五,判断目标数据表是否为单一主键,是则执行下一步骤,为多主键则进入步骤七;
步骤六,将HBase中间数据库行键直接作为主键,进入步骤八;
步骤七,根据主键拼接分割符解析HBase中间数据库行键的拼接方式,建立行键与多主键的映射关系,进入步骤八;
步骤八,将目标字段数据类型映射到统一语义共享模型中通用数据类型,根据映射后的通用数据类型查找HBase中间数据库内对应的列簇,按字段名与列簇中列进行映射,进入步骤九;
步骤九,操作者检查映射关系是否符合需求,符合则映射流程结束,否则执行步骤十;
步骤十,操作者根据实际需求,手动调整映射关系,映射流程结束;
数据转换模块:根据源数据库与统一语义共享模型之间的映射关系,将来自源数据库中的数据转换为统一语义共享模型,输出给数据融合模块;根据统一语义共享模型和目标数据库之间的映射关系,将来自数据分发模块的数据转换为目标数据库中的数据,并发送给数据投递模块;
数据融合模块;将来自数据转换模块的统一语义共享模型与历史数据的统一语义共享模型进行融合,并将融合后的统一语义共享模型存储在HBase中间数据库;
数据分发模块:获取上次向目标数据库推送数据的时间戳t,从HBase中间数据库读取t之后且与t紧邻的时间戳对应的待交换字段数据,发送给数据转换模块;
数据投递模块:根据交换与共享的需求以及预设的推送时间间隔,将数据推送到相应目标数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国航天系统科学与工程研究院,未经中国航天系统科学与工程研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710042815.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于标签的教育资源推荐方法及系统
- 下一篇:数据库表索引