[发明专利]一种多源异构割裂结构化数据转化方法及系统在审
申请号: | 201710188581.X | 申请日: | 2017-03-27 |
公开(公告)号: | CN107168989A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 赵淦森;吴杰超;庄序填;任雪琦;杨雪芬;席云;胡波;王欣明;聂瑞华;唐华 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州嘉权专利商标事务所有限公司44205 | 代理人: | 胡辉 |
地址: | 510631 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多源异构 割裂 结构 数据 转化 方法 系统 | ||
技术领域
本发明涉及数据处理技术领域,尤其涉及一种多源异构割裂结构化数据转化方法及系统。
背景技术
据IBM公司的分析,人类文明有90%的数据是在过去两年内产生的,到2020年,全世界所产生的数据规模将达到今天的44倍。而我国截至2015年12月,已经拥有6.88亿的互联网用户 ,13.06亿的手机用户 ,每天可产生海量的数据。大数据无论在大型企业,还是政府部门都发挥着相当的作用。
2015年8月国务院印发了《促进大数据发展行动纲要》(国发〔2015〕50号),明确强调“数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生重要影响”。该文件同时指出大数据的特点为“数量巨大、来源分散、格式多样”,要求通过“采集、存储和关联分析,从中发现新知识、创造新价值”。
在体量巨大之外,大数据的明显特征是“碎片化”。具体来说是同一个数据可能碎片化存储或者来源于不同的数据源,相互独立;同一对象的不同侧面和不同维度的数据碎片化存储于不同的地方,互不关联;同一侧面和维度的数据可能采用不同的结构和模式进行组织和表示,互不相同。总结而言,大数据的碎片化形成了多源、割裂、异构的数据形态。
因此,如何将多源、割裂、异构的数据融合是一个值得研究的问题。而在现有的系统中,对结构化数据的描述都具有独特性的。在多源的情况下,相同的信息在不同的系统具有不同的描述方式及不同的表达结构。因此,现有的数据融合及实体识别的方法都是基于特定结构的数据,一旦用于不同结构的数据,算法效果将大大降低。所以,在数据融合的过程中,不同的描述方式严重影响数据融合的质量及增加了数据融合的成本。
现有的技术主要采用基于模式集成方式,即通过模式转换实现不同数据库之间的转换,只能描述数据模型的结构信息,缺少了语义信息。同时根据1所说,现有的数据融合及实体识别的方法都是基于特定结构的数据。而Yodsawalai Chodpathumwan提出的一种独立表达方式的转换方法只针对于特定的两个能转换的数据库。但在现实的情况中,并不是所有的数据库的图结构都可以相互转换的。
发明内容
为了解决上述技术问题,本发明的目的是提供一种能提高信息完整度的一种多源异构割裂结构化数据转化方法及系统。
本发明所采取的技术方案是:
一种多源异构割裂结构化数据转化方法,包括以下步骤:
将多个数据源映射到对应的局部映射图;
将各局部映射图组成总映射图。
作为所述的一种多源异构割裂结构化数据转化方法的进一步改进,所述的将多个数据源映射到对应的局部关系图,这一步骤具体包括:
将数据源的各数据表分别映射到对应的局部映射图中对应的节点;
将数据源中各数据表的外键引用关系分别映射到对应的局部映射图中对应的边。
作为所述的一种多源异构割裂结构化数据转化方法的进一步改进,所述的节点包括结构信息和语义信息。
作为所述的一种多源异构割裂结构化数据转化方法的进一步改进,所述结构信息包括表结构、字段、字段类型和具体值。
作为所述的一种多源异构割裂结构化数据转化方法的进一步改进,所述语义信息包括数据表名、属性名称、具体属性和约束条件。
本发明所采用的另一技术方案是:
一种多源异构割裂结构化数据转化系统,包括:
局部映射单元,用于将多个数据源映射到对应的局部映射图;
映射组成单元,用于将各局部映射图组成总映射图。
作为所述的一种多源异构割裂结构化数据转化系统的进一步改进,所述的局部映射单元具体包括:
节点映射单元,用于将数据源的各数据表分别映射到对应的局部映射图中对应的节点;
边映射单元,用于将数据源中各数据表的外键引用关系分别映射到对应的局部映射图中对应的边。
作为所述的一种多源异构割裂结构化数据转化系统的进一步改进,所述的节点包括结构信息和语义信息。
作为所述的一种多源异构割裂结构化数据转化系统的进一步改进,所述结构信息包括表结构、字段、字段类型和具体值。
作为所述的一种多源异构割裂结构化数据转化系统的进一步改进,所述语义信息包括数据表名、属性名称、具体属性和约束条件。
本发明的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710188581.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置