[发明专利]一种数据表关联方法、装置、存储介质及电子设备在审
| 申请号: | 202210226727.6 | 申请日: | 2022-03-09 |
| 公开(公告)号: | CN114676132A | 公开(公告)日: | 2022-06-28 |
| 发明(设计)人: | 黄柯;孙强;陈彧;张雨静 | 申请(专利权)人: | 北京三快在线科技有限公司 |
| 主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/25 |
| 代理公司: | 北京曼威知识产权代理有限公司 11709 | 代理人: | 邓超 |
| 地址: | 100080 北京市海*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 数据表 关联 方法 装置 存储 介质 电子设备 | ||
本说明书公开了一种数据表关联方法、装置、存储介质及电子设备,根据待关联的各数据表的键值,确定每个数据表对应于各其它数据表的关联率,并根据各数据表的属性信息以及每两个数据表之间对应的关联率,确定每两个数据表之间的关联权重,以基于各数据表之间的关联权重,确定待关联的各数据表的关联顺序,并按照关联顺序进行关联。其中,关联权重表征两个数据表关联后的虚拟中间表的数据量大小,两个数据表之间的关联权重与关联顺序负相关。基于待关联的各数据表中,每两个数据表关联后的虚拟中间表的数据量大小,确定各数据表的关联顺序,减少了大数据量的数据表在关联过程中的加载频次,节省了大量的计算资源,缩短了多表关联的时长。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据表关联方法、装置、存储介质及电子设备。
背景技术
随着大数据技术的不断发展,在对海量的数据信息进行分析时,需要对不同数据源的数据表进行关联。
现有技术在进行数据表关联时,通常采用串行的关联方式,依次对各数据表进行关联。例如图1所示,在进行数据表A、B、C、D的关联时,通常先将A表与B表进行关联,得到中间结果表A-B,再将中间结果表A-B与C表进行关联,得到中间结果表A-B-C,最后,将中间结果表A-B-C与表D进行关联,得到最终关联结果A-B-C-D。
但是,上述串行关联的方式由于没有限制各数据表关联的先后顺序,可能出现数据量较大的表在关联流程中频繁加载计算,尤其对于数亿级别的大规模数据表的关联,需要耗费大量的计算资源。
发明内容
本说明书实施例提供一种数据表关联方法、装置、存储介质及电子设备,用于部分解决现有技术中的问题。
本说明书实施例采用下述技术方案:
本说明书提供的一种数据表关联方法,包括:
根据待关联的各数据表中的键值,确定每个数据表对应于各其它数据表的关联率,并根据各数据表的属性信息以及每两个数据表之间对应的关联率,确定每两个数据表之间的关联权重,所述属性信息至少包括数据表的数据量、关联行数以及关联列数,所述关联权重表征两个数据表关联后形成的虚拟中间表的数据量大小;
根据每两个数据表之间的关联权重,确定待关联的各数据表的关联顺序,并按照所述关联顺序进行数据表的关联,所述两个数据表之间的关联权重与所述两个数据表的关联顺序负相关。
可选地,根据待关联的各数据表中的键值,确定每个数据表对应于各其它数据表的关联率,具体包括:
针对待关联的每个数据表,根据该数据表中的键值与各其它数据表中的键值,确定该数据表与各其它数据表的匹配键值;
针对该数据表的每个其它数据表,根据该数据表与该其它数据表的匹配键值,在该数据表的键值中的占比,确定该数据表对应于该其它数据表的关联率。
可选地,根据各数据表的属性信息以及每两个数据表之间对应的关联率,确定每两个数据表之间的关联权重,具体包括:
针对每两个数据表,分别确定该两个数据表的数据量、关联行数以及关联列数;
根据该两个数据表的关联行数、关联列数以及该两个数据表之间对应的关联率,确定该两个数据表关联后产生的空值总量;
根据该两个数据表的数据量、该两个数据表关联后产生的空值总量以及预设的空值所占字符数,确定该两个数据表关联后形成的虚拟中间表的数据量,并根据所述虚拟中间表的数据量,确定该两个数据表之间的关联权重。
可选地,根据该两个数据表的关联行数、关联列数以及该两个数据表之间对应的关联率,确定该两个数据表关联后产生的空值总量,具体包括:
确定该两个数据表中的第一数据表以及第二数据表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三快在线科技有限公司,未经北京三快在线科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210226727.6/2.html,转载请声明来源钻瓜专利网。





