[发明专利]基于值‑列映射的通用单字段拆分数据抽取方法和装置有效

专利信息
申请号: 201410536559.6 申请日: 2014-10-13
公开(公告)号: CN104239580B 公开(公告)日: 2017-06-27
发明(设计)人: 徐武平;徐爱萍 申请(专利权)人: 武汉大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙)42222 代理人: 张火春
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了一种基于值‑列映射的通用单字段拆分数据抽取方法和装置,利用OLEDB通用数据访问技术,将源表中的单一字段的数据经过转换算法处理后分别按照映射关系抽取到目的表中的多个字段中,实现了单字段的拆分抽取。本发明能够适用于规定情形下的从单字段到多字段的数据抽取过程,具有极强的通用性,在未来基于数据仓库数据抽取研究领域有着广阔的应用前景。
搜索关键词: 基于 映射 通用 字段 拆分 数据 抽取 方法 装置
【主权项】:
基于值‑列映射的通用单字段拆分数据抽取方法,其特征在于,包括如下步骤:步骤1:构建拆分配置表;步骤1.1对字段拆分适用对象进行配置;步骤1.11选择配置表的源数据库DBS和源数据表S;步骤1.12分别设置源数据表S的描述字段F1、F2、F3、…、拆分字段V、数据说明字段K;步骤1.13选择配置表的目的数据库DBD和目的表D;步骤1.14设置目的表描述字段序列X1、X2、X3、…,及其与源数据表S的描述字段F1、F2、F3、…的对应关系;步骤1.2对值‑列映射关系的数据结构进行配置;将源数据表S中字段K的所有取值K1,K2,K3,…,Ki与目的表D中的数据字段V1、V2、V3、…、Vj之间建立一一映射关系,表示为M={(Ki,Vj)},其中Ki表示字段K中的第i个数值,Vj表示目的表D中的第j个字段;步骤2:读取配置表中的配置信息完成数据的抽取与转换;步骤2.1按照配置表中定义的源数据库DBS和源数据表S,连接数据库DBS,并从源数据表S中抽取所有数据行,设为数据集R;步骤2.2按照配置表中定义的目的数据库DBD和目的数据表D,连接数据库DBD;步骤2.3从配置表中读取拆分值‑列映射关系集合M;步骤2.4对被抽取数据集合R中的每一行r执行如下操作:2.41在值‑列映射集合M中查找Ki等于r行字段K当前数值的值‑列映射Vj;2.42在目的数据库DBD的目的数据表D中查询描述字段X1、X2、X3、…和表S中描述字段F1、F2、F3、…具有相同数值的数据行;2.43如果2.42的查询结果为空,则执行2.44插入新数据,否则执行2.45更新原有数据;2.44在目的数据库DBD的目的数据表D中执行插入新数据行,令新数据行的描述字段X1、X2、X3、…的值依次等于源数据表S中各描述字段F1、F2、F3、…的值,并且字段Vj的值等于表S中行r的拆分字段V的值;2.45在目的数据库DBD的目的数据表D中执行更新数据行语句,令该行的字段Vj的值等于源数据表S中行r的拆分字段V的值;2.46检查当前行是否是集合R的最后一行,如不是则取下一行转2.42,否则转步骤3结束;步骤3结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410536559.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top