[发明专利]一种整合数据源中的数据的方法及装置在审
申请号: | 201811441755.X | 申请日: | 2018-11-29 |
公开(公告)号: | CN109558443A | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 辜国强;周国梁;赵鹏 | 申请(专利权)人: | 北京数聚鑫云信息技术有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京名华博信知识产权代理有限公司 11453 | 代理人: | 白莹;苗源 |
地址: | 100015 北京市朝阳区酒仙*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 整合 元数据信息 数据源 数据记录 数据整合 统一数据格式 读写数据 获取数据 提取数据 字段信息 映射 字段 标准化 转换 记录 配置 统一 | ||
本发明公开了一种整合数据源中的数据的方法及装置。所公开的方法包括:获取数据源和/或数据整合目标的数据记录的元数据信息;基于数据源和/或数据整合目标的格式和元数据信息,从数据源提取数据记录,对所提取出的数据记录进行整合,得到相应的整合数据,其中,元数据信息包括字段信息,数据记录包括具体的字段值。所公开的技术方案提供了统一的标准化读写数据的元数据信息配置,无需统一数据格式就能实现不同格式的数据之间的转换、映射和整合。
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种整合数据源中的数据的方法及装置。
背景技术
现有技术在对不同格式的数据(例如,各种格式的数据文件、JSON文件、XML文件等标准的数据文件格式)进行整合时,通常都是先将这些不同格式的数据都统一为一种数据格式(例如,JSON文件、XML文件等标准的数据文件格式中的一种或利用数据库临时表),然后再对这种统一格式的数据进行数据整合处理。
图1示出了现有技术所采用的一种数据整合方案。
如图1所示,这种现有技术方案首先将各种不同格式的源数据(即,数据A、数据B、数据C)分别抽取到一个数据平台中;然后在该数据平台中使用对应于不同格式数据的转换器(即,转换器A、转换器B、转换器C)将相应的源数据转换为统一格式的数据(即,数据X、数据Y、数据Z)并将其输入至第三方系统中;最后在第三方系统中对这些统一格式的数据进行映射、整合操作(例如,数据聚合、数据计算、数据清洗等操作)。
这种现有技术方案存在以下缺点:
1、仅仅适用于离线的、大量的、非实时性的数据整合操作。
2、需要同时维护数据平台和第三方系统,增加了维护成本。
3、数据平台和第三方系统之间需要进行交互,数据整合时的执行效率高度依赖于交互时的传输效率,导致高延迟数据处理。
4、由于第三方系统特有数据格式制约,导致转换器功能单一,不能自由地在不同系统之间直接实现数据转换,不能快速适应新系统数据格式,缺少灵活性。
5、一旦源数据结构变化,就需要调整整个流程,修改每个转换器,以及第三方系统的数据整合方式,增加数据处理流程的维护成本,在极端情况下,甚至需要重新设计数据处理流程。
图2示出了现有技术所采用的另一种数据整合方案。
如图2所示,这种现有技术方案无需借助第三方系统,数据提取、转换、整合的操作都在同一个数据平台上进行。尽管相对于图1所示的技术方案在维护成本、处理延迟等方面有了一定的改善,却仍然存在以下缺点:
1、需要先读取数据到数据平台之后再进行数据格式的统一,然后再进行数据整合处理。与图1所示的技术方案类似,在本地同样需要提前进行数据格式转换,因此,势必需要消耗本地的系统内存和磁盘资源,仍然可能存在效率低下的问题。
2、整合数据之前需将数据全部读取到数据平台中,势必会增加数据平台的负载压力。
3、由于每种不同的数据源都需要进行数据格式的统一,如果修改数据格式,则需要同时修改多个转换器流程,增加了流程设计难度以及维护成本。
因此,为了解决上述技术问题,需要提出新的技术方案。
发明内容
根据本发明的整合数据源中的数据的方法,包括:
获取数据源和/或数据整合目标的数据记录的元数据信息;
基于数据源和/或数据整合目标的格式和元数据信息,从数据源提取数据记录,对所提取出的数据记录进行整合,得到相应的整合数据,
其中,元数据信息包括字段信息,数据记录包括具体的字段值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京数聚鑫云信息技术有限公司,未经北京数聚鑫云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811441755.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据实时汇聚方法及系统
- 下一篇:数据检索方法及装置