[发明专利]一种数据表的识别方法、装置和系统有效
申请号: | 201610440032.2 | 申请日: | 2016-06-17 |
公开(公告)号: | CN107515886B | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 潘旻;徐宁;王伟 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2457 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 赵娟 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据表 识别 方法 装置 系统 | ||
本申请实施例提供了一种数据表的识别方法、装置和系统,所述方法包括:获取数据表之间的第一依赖关系;依据所述第一依赖关系,统计所述数据表之间的路径长度和路径数目;获取所述数据表中的一个或多个字段之间的第二依赖关系;依据所述第二依赖关系,确定所述一个或多个字段的重要性系数;采用所述路径长度、路径数目,以及,重要性系数,确定所述数据表之间的关联度;依据所述关联度,对所述数据表进行识别,使得在确定数据表的关联度时从字段粒度出发,通过字段的使用情况、字段本身的属性、数据表的距离、数据表的连通性等维度,能够科学合理地衡量出数据表之间的关联度。
技术领域
本申请涉及信息技术领域,特别是涉及一种数据表的识别方法、一种数据表关联度的确定方法、一种数据表的识别装置、一种数据表关联度的确定装置和一种数据表的识别系统。
背景技术
对于大数据,业界提出了3V特征,即规模性(Volumn)、高速性(Velocity)和多样性(Variety)。随着近几年的发展,大数据的存储、计算能力都取得了不错的发展,目前,迫切需要解决的就是大数据的多样性。为了满足大数据的多样性要求,其中一种解决方案就是数据交换。数据交换可以在不同公司之间进行,也可以在同一公司内部不同业务部门之间进行。数据交换的具体形式就是数据仓库中或者云计算环境下不同数据表之间的相互访问。在日常业务过程中,为了满足各项业务对于数据多样性的需求,一张结果数据表的组成也许需要依赖多个业务部门的数据表甚至是不同公司开放出来的数据表,但是,在数据交换和互访问中,不同的数据表对于满足业务需求的结果数据表的重要性可能不同,如何识别出具有较高重要性的数据表,以便重点运维和重点保障便成了大数据时代的一项重要任务。由于对于数据表重要性的识别主要是通过数据表的关联度来确定的,因此,各部门、各公司提供的数据对于满足业务需求的结果数据表的关联度大小如何确定,就成为数据互访问中数据交换价值衡量与计量的关键。
通常,数据表的存储可以通过数据仓库来实现,数据仓库中往往存在着成千上万的数据表,而每一张数据表中又会有数十个或者数百个字段。在某一具体的业务场景中,为了达到具体的分析需求,可以将多张数据表之间的依赖关系通过一个复杂的有向图来表示。如图1所示,是一种以数据表为节点的有向无环图的示意图。在图1中,圆圈代表数据表,圆圈中的字母代表数据表的名称,例如数据表A,数据表B等;圆圈旁注释框中字母代表数据表中的字段名,例如数据表A中有字段有a1、a2、a3和a4;两个圆圈之间带有方向的线段代表两个数据表之间存在着扫描/依赖关系,例如从数据表A到数据表C的箭头,表示数据表A为数据表C贡献了字段a1和字段a2两个字段,也可以说数据表C的产生需要依赖数据表A的字段a1和字段a2。
已有技术在计算两张数据表之间的关联度时,分为两种情况分别计算:一种是两张数据表存在直接依赖关系,例如图1中数据表A与数据表C,而另一种则是两张数据表存在间接依赖关系,例如图1中数据表A与数据表E。
对于存在直接依赖关系的数据表,已有技术按照贡献的字段个数占比来计算关联度。例如在图1中,在计算数据表A与数据表C之间的关联度时,首先确认数据表C所依赖的数据表包括数据表A和数据表B,其中数据表A为数据表C贡献了2个字段,而数据表B则为数据表C只贡献了1个字段,因此数据表A和数据表B对数据表C的关联度比例为2:1,即数据表A对数据表C的关联度为2/3,数据表B对数据表C的关联度为1/3。
对于不存在直接依赖关系的数据表,已有技术在计算关联度时需要通过中间数据表,将间接依赖关系转化为存在直接关系的数据链路来进行计算。例如图1中数据表A对数据表E的关联度,需要首先计算数据表A对数据表C的关联度,以及,数据表C对数据表E的关联度。由于数据表A对数据表C的关联度为2/3,数据表C对数据表E的关联度为1/4,则数据表A对数据表E的关联度为2/3*1/4=1/6。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610440032.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息推送的方法和装置
- 下一篇:一种适用于多种大数据管理系统的交互式查询方法