[发明专利]一种异构多源数据的动态集成方法及系统有效
申请号: | 201410102827.3 | 申请日: | 2014-03-19 |
公开(公告)号: | CN103902671B | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 谢永红;赵利民;张德政;阿孜古丽·吾拉木;栗辉;杜宏博 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京金智普华知识产权代理有限公司11401 | 代理人: | 皋吉甫 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 异构多源 数据 动态 集成 方法 系统 | ||
技术领域
本发明属于数据处理领域,尤其是涉及一种异构多源数据的动态集成方法及系统,。
背景技术
随着当今社会数据的日益膨胀,生产、通信、医疗等行业产生了大量非结构化的实时或滞后数据,这些数据呈现出结构相异、来源渠道多样、数据冗余程度高等特点,不仅在数据采集角度的用户增加了不断重复的工作量,不同数据源的入库加载也是极其繁琐的,数据集成入库的过程中增加了失误的概率。
目前典型的数据集成过程是抽取、转换、降维、集成,但是这四个过程却忽略了动态性,其必须要有针对性的设计一套方案进行源数据的集成工作,缺乏灵活性和通用性,传统的异构多源数据集成,不同的数据源必须有不同的数据集成方法,这有一个弊端,就是一旦某一环节出现问题(比如数据采集时出现数据结构解析错误),未来的数据集成和数据仓库的构建将毫无意义。
比如在重钢集团热连轧工艺生产流程中,针对某一生产线产生的实时数据,当生产流程或采集点样本数据结构发生变化时,企业只能重新设计一套新方案来采集新数据源,这无疑为企业增加了繁琐的工作量,而且在采集方案的设计过程中增加了人工失误率。
因此,异构多源数据集成工作的通用性愈发重要。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种异构多源数据的动态集成方法及系统,它的特点是在数据采集过程中提供一种动态定制异构多源数据采集方法的机制,在整个系统中定义了一种多数据源的层次化管理模式,在数据入库加载模块实现了一种灵活的业务数据再定义方法,另外提供了一种元数据管理机制和动态数据集成方法。
为了实现本发明的目的,采用以下技术方案:
一种异构多源数据的动态集成系统,该系统适用于开放生产环境中多源、异构数据的集成,支持数据源动态变化和数据采集方式相对灵活多变的情况,所述系统包括数据采集模块、动态建库模块、入库加载模块、数据持久层模块;
所述数据采集模块动态为各数据源量身定做采集方法并发送至数据持久层模块,采集数据至系统缓存库,完成数据源的定义,提取数据源特征并发送至动态建库模块;
所述动态建库模块接收数据采集模块发送的数据源特征,用于为异构多源数据动态定制业务数据库和元数据库,生成元表记录并更新元数据库数据;
所述入库加载模块接收数据采集模块缓存库的转换后的数据,并做再定义处理,实现数据结构统一性,并引导多源数据进入相应业务数据库;
所述数据持久层模块存储异构多源业务数据、异构多源元数据和数据采集模块定制的采集方法,提供元数据库管理机制,并实现元数据库与业务数据的两库联动。
所述数据采集模块包括:
数据源定义单元,用于在数据持久层定义数据源基本信息;
采集方法动态定制单元,用于管理多源数据相应的数据采集方法,并将采集方法发送给采集方法库;
特征提取单元,用于提取数据源的属性、数据结构等信息,并将其发送给动态建库模块。
所述动态建库模块包括:
元数据库动态定制单元,用于为各数据源动态定制元数据库表结构,接收数据采集模块的数据源特征信息,并依此作为元表记录更新元数据库;
业务数据库动态定制单元,为各数据源动态定制业务数据库。
所述入库加载模块包括:
数据源再定义单元,用于接收数据采集模块缓存库中的数据,通过分析元数据库属性间关系对数据结构再定义;
入库加载单元,用于根据各数据源特征定制入库引导程序,并完成数据入库加载工作。
本发明还提出一种异构多源数据的动态集成方法,该集成方法包括以下步骤:
步骤1、采集源数据并向系统提供数据源特征、定制采集方法;
步骤2、动态定制元数据库和业务数据库;
步骤3、对业务数据结构再定义,生成入库引导程序并完成业务数据入库。
所述步骤1还包括以下具体步骤:
步骤1.1,所述数据采集模块在数据持久层定义数据源;
步骤1.2,所述数据采集模块动态定制各数据源的采集方法,并发送至采集方法库;
步骤1.3,所述数据采集模块提取各数据源的特征信息并发送至动态建库模块。
所述步骤2还包括以下具体步骤:
步骤2.1,所述动态建库模块定制表元表和属性元表;
步骤2.2,所述动态建库模块定制业务数据库结构。
步骤3包括以下具体步骤:
步骤3.1,所述入库加载模块动态定制各数据源的入库引导程序;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410102827.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:反垃圾过滤规则升级方法和装置
- 下一篇:一种玉米刨
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置