[发明专利]基于值‑列映射的通用单字段拆分数据抽取方法和装置有效

专利信息
申请号: 201410536559.6 申请日: 2014-10-13
公开(公告)号: CN104239580B 公开(公告)日: 2017-06-27
发明(设计)人: 徐武平;徐爱萍 申请(专利权)人: 武汉大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙)42222 代理人: 张火春
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 映射 通用 字段 拆分 数据 抽取 方法 装置
【说明书】:

技术领域

发明涉及计算机数据仓库领域ETL技术,尤其涉及一种基于值-列映射的通用单字段拆分数据抽取方法和装置。

背景技术

当今的信息技术在软硬件领域、Internet和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源,可以保存大量的数据供分析使用。企业的数据处理大致分为两类:一类是操作型处理,也称为联机事务处理,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改。另一类是分析型处理,一般针对某些主题的历史数据进行分析,支持管理决策。

数据仓库是为企业的决策制定过程提供支持的所有类型数据的战略集合。为了实现管理决策任务,会将操作型数据转化为分析型数据。这种把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再以一定的数据模型存放到数据仓库内的技术称为数据抽取技术。在数据仓库领域中对各种不同数据存储方式的访问、抽取能力是数据抽取工具的关键技术。

ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要环节。本发明尤其涉及一种通用的数据抽取、单字段拆分转换技术。

ETL实质上是一类数据转换器,提供一种从源到目标系统转换数据的方法。即从操作型系统提取、清洗并转换数据,然后将数据载入决策支持系统的操作型数据存储、数据仓库或数据集市中。具体功能针对不同的数据源编写不同的数据抽取、转换和加载程序处理,完成数据集成的大部分工作。

ETL在数据仓库和业务系统之间搭建起一座桥梁,确保新的业务数据源源不断地进入数据仓库;其中最复杂之处在于其涉及到大量的业务逻辑和异构环境,因此在一般数据仓库项目中ETL部分是一难度较大的环节,其主要难点在于数据的清洗转换,包括:字段映射、映射的自动匹配、字段的拆分、多字段的混合运算、记录间合并或计算、记录拆分等等。

发明内容

本发明提出了一种基于值-列映射的通用单字段拆分抽取技术,能够将源数据表中某个行字段的数据拆分到目的表的若干个列字段中。

本发明的技术方案是:基于值-列映射的通用单字段拆分数据抽取方法,包括如下步骤:

步骤1:构建拆分配置表;

步骤1.1对字段拆分适用对象进行配置;

步骤1.11选择配置表的源数据库DBS和源数据表S;

步骤1.12分别设置源数据表S的描述字段F1、F2、F3、…、拆分字段V、数据说明字段K;

步骤1.13选择配置表的目的数据库DBD和目的表D;

步骤1.14设置目的表描述字段序列X1、X2、X3、…,及其与源数据表S的描述字段F1、F2、F3、…的对应关系;

步骤1.2对值-列映射关系的数据结构进行配置;将源数据表S中字段K的所有取值K1,K2,K3,…,Ki与目的表D中的数据字段V1、V2、V3、…、Vj之间建立一一映射关系,表示为M={(Ki,Vj)},其中Ki表示字段K中的第i个数值,Vj表示目的表D中的第j个字段;

步骤2:读取配置表中的配置信息完成数据的抽取与转换;

步骤2.1按照配置表中定义的源数据库DBS和源数据表S,连接数据库DBS,并从源数据表S中抽取所有数据行,设为数据集R;

步骤2.2按照配置表中定义的目的数据库DBD和目的数据表D,连接数据库DBD

步骤2.3从配置表中读取拆分值-列映射关系集合M;

步骤2.4对被抽取数据集合R中的每一行r执行如下操作:

2.41在值-列映射集合M中查找Ki等于r行字段K当前数值的值-列映射Vj

2.42在目的数据库DBD的目的数据表D中查询描述字段X1、X2、X3、…和表S中描述字段F1、F2、F3、…具有相同数值的数据行。

2.43如果2.42的查询结果为空,则执行2.44插入新数据,否则执行2.45更新原有数据;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410536559.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top