[发明专利]一种为企业异构数据源系统消除重复记录的方法在审
申请号: | 201611208774.9 | 申请日: | 2016-12-23 |
公开(公告)号: | CN107656950A | 公开(公告)日: | 2018-02-02 |
发明(设计)人: | 林殷;吴方才;朱雪松 | 申请(专利权)人: | 航天星图科技(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安博达知识产权代理有限公司11271 | 代理人: | 徐国文 |
地址: | 101399 北京市顺义区国*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种为企业异构数据源系统消除重复记录的方法,该系统包括数据仓库、集成数据层和应用接口。使得异构数据库减少相似重复记录数量,从而提高数据源以及企业异构数据集成系统中数据的质量。 | ||
搜索关键词: | 一种 企业 数据源 系统 消除 重复 记录 方法 | ||
【主权项】:
一种为企业异构数据源系统消除重复记录的方法,该系统包括:数据仓库、集成数据层和应用接口;底层的各个异构数据源构成了系统的数据仓库;集成数据层封装了异构数据库集成系统的业务逻辑;各种应用程序和对应的访问接口构成了系统的应用接口;集成数据层是实现异构数据库中数据转换的核心,目的是访问各个数据源,集成数据源信息,协调各数据源间信息;集成数据层在各局部数据提供的共享数据的基础之上建立一个全局的虚拟视图,并不存储实际的数据;具体包括:元数据DB、元数据管理器、综合包装器、中介器、应用层访问统一接口、异构数据库统一接口;元数据DB用于储存各异构数据库的元数据库信息;元数据管理器用于制定集成系统的全局模式与局部数据库的模式之间的转换规则;中介器用于异构数据库的注册、公共模型的生成和全局查询请求的接收;综合包装器用于实现数据位置和访问的透明,对异构的数据进行包装;集成数据层对外提供了两个统一接口,即应用层访问统一接口和底层异构数据库访问接口;其功能是屏蔽各数据库的差异,提供数据的透明访问,使得使用者无需知道数据的数据源模式及具体的物理位置等信息,只需通过系统定义的与具体数据源无关的SQL语句进行访问;根据异构数据源的特点,对异构数据源中重复记录消除的步骤具体包括如下:第一步:根据实际情况进行需求分析,选择元数据DB中储存的各异构数据库的元数据库信息;第二步:根据所述元数据库信息制定消除规则,以方便随后采用自动化消除和人工筛选相结合的方式对异构数据源进行消除;第三步:根据数据仓库的共享数据要求,提取局部数据库的模式,根据异构数据源数据模式之间的关联关系查找相似的元数据库信息,并分别映射到异构数据源中相应的数据,并将其存储于临时数据库中;第四步:根据数据仓库的数据库规范及数据格式要求,对临时数据库中的数据记录进行转换,使之符合数据仓库的标准;第五步:利用消除规则,采用自动化消除清洗数据仓库中的相似重复记录。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天星图科技(北京)有限公司,未经航天星图科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611208774.9/,转载请声明来源钻瓜专利网。