[发明专利]一种数据表处理方法及装置有效
申请号: | 201910184764.3 | 申请日: | 2019-03-12 |
公开(公告)号: | CN111694891B | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 杨帆;王能;冯仕炳 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/2455 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 许静;黄灿 |
地址: | 404100 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据表 处理 方法 装置 | ||
本发明提供一种数据表处理方法及装置,该方法包括:根据收集的N条关联查询语句,统计M个数据表组合中每个数据表组合的第一关联次数;其中,N和M均为正整数,所述数据表组合包括至少两个数据表,所述第一关联次数为所述数据表组合中至少两个数据表被关联查询的次数;根据所述M个数据表组合中每个数据表组合的第一关联次数,确定第一候选数据表组合,其中,所述第一候选数据表组合用于生成第一宽表。通过本发明提供的数据表处理方法,可以提高所选取的用于生成宽表的数据表的准确性,进而可以避免生成较多冗余的宽表,并提高所生成的宽表对关联查询的覆盖度。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种数据表处理方法及装置。
背景技术
在数据处理(例如,数据挖掘)过程中,为了提高计算效率和查询方便,会将符合三范式设计的数据表通过冗余的方式做关联,转化为宽表,再基于宽表进行计算、查询等处理。
目前,通常是人工根据经验选择将哪些表、哪些字段关联做成宽表。然而,由于数据表数量通常较多,且业务关系较为复杂,人工凭经验选表,容易导致生成较多冗余的宽表,浪费存储空间,或是生成的宽表对关联查询覆盖度较差。
可见,现有技术中存在选取用于生成宽表的数据表的准确性较差的问题。
发明内容
本发明实施例提供一种数据表处理方法及装置,以解决选取用于生成宽表的数据表的准确性较差的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种数据表处理方法。该方法包括:
根据收集的N条关联查询语句,统计M个数据表组合中每个数据表组合的第一关联次数;其中,N和M均为正整数,所述数据表组合包括至少两个数据表,所述第一关联次数为所述数据表组合中至少两个数据表被关联查询的次数;
根据所述M个数据表组合中每个数据表组合的第一关联次数,确定第一候选数据表组合,其中,所述第一候选数据表组合用于生成第一宽表。
第二方面,本发明实施例还提供一种数据表处理装置。该数据表处理装置包括:
统计模块,用于根据收集的N条关联查询语句,统计M个数据表组合中每个数据表组合的第一关联次数;其中,N和M均为正整数,所述数据表组合包括至少两个数据表,所述第一关联次数为所述数据表组合中至少两个数据表被关联查询的次数;
第一确定模块,用于根据所述M个数据表组合中每个数据表组合的第一关联次数,确定第一候选数据表组合,其中,所述第一候选数据表组合用于生成第一宽表。
第三方面,本发明实施例还提供一种数据表处理装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的数据表处理方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据表处理方法的步骤。
本发明实施例中,根据收集的N条关联查询语句,统计M个数据表组合中每个数据表组合的第一关联次数;其中,N和M均为正整数,所述数据表组合包括至少两个数据表,所述第一关联次数为所述数据表组合中至少两个数据表被关联查询的次数;根据所述M个数据表组合中每个数据表组合的第一关联次数,确定第一候选数据表组合,其中,所述第一候选数据表组合用于生成第一宽表。由于基于每个数据表组合的关联查询次数中选取用于生成宽表的数据表,可以提高所选取的用于生成宽表的数据表的准确性,进而可以避免生成较多冗余的宽表,并提高所生成的宽表对关联查询的覆盖度。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910184764.3/2.html,转载请声明来源钻瓜专利网。