[发明专利]模型构建方法、装置、电子设备及存储介质在审
申请号: | 202210993940.X | 申请日: | 2022-08-18 |
公开(公告)号: | CN115344557A | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 邓家胜 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/23;G06F16/28 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 饶智彬 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 构建 方法 装置 电子设备 存储 介质 | ||
本发明涉及数据仓库技术领域,提供一种模型构建方法、装置、电子设备及存储介质,通过数据库源表数据和目标表数据解析源字段与目标字段的血缘映射关系,利用目标字段的访问记录构建源字段组合的访问次数矩阵,利用聚类算法根据访问次数矩阵将源字段划分至更新的数据库源表中,利用包含访问热度较大的源字段的更新的数据库源表构建应用系统的核心模型,实现了自动划分应用系统的数据模型的结构,避免了将过多的字段堆积至同一个数据模型导致的数据模型的臃肿,能够提高数据模型和应用系统的应用效率。
技术领域
本发明涉及数据仓库技术领域,具体涉及一种模型构建方法、装置、电子设备及存储介质。
背景技术
数据模型是数据应用系统的核心基石,是数据应用系统的骨骼。为了快速满足业务交付需要,往往会把大量的数据字段,堆积到一个数据模型,导致模型臃肿不堪,导致应用系统的使用出现延迟。
发明内容
鉴于以上内容,有必要提出一种模型构建方法、装置、电子设备及存储介质,能够利用访问热度较大的源字段构建应用系统的核心模型,自动划分应用系统的数据模型的结构,提高数据模型和应用系统的应用效率。
本发明的第一方面提供一种模型构建方法,所述方法包括:基于应用系统的任务日志,获得所述应用系统的数据库源表与目标表,以及所述数据库源表中的源字段与所述目标表中的目标字段的对应关系;
从所述应用系统的用户访问日志中获取包含所述目标字段的访问记录;
根据所述访问记录与所述对应关系,构建与所述目标字段对应的源字段组合的访问次数矩阵,其中,所述源字段组合包括一个源字段和/或复数个源字段的组合,所述访问次数矩阵包括每个源字段组合的访问次数;
根据所述访问次数矩阵对所述源字段组合进行聚类分析,根据聚类分析的结果将所述源字段组合划分为多个类别;
根据所述多个类别的源字段组合获得多个更新的数据库源表,基于所述多个更新的数据库源表生成多个数据模型。
根据本发明的一个可选的实施方式,所述基于应用系统的任务日志,获得所述应用系统的数据库源表与目标表,以及所述数据库源表中的源字段与所述目标表中的目标字段的对应关系,包括:
确定所述任务日志中的数据库源表数据与目标表数据,其中,所述数据库源表数据包括数据库源表名称、数据库源表中的源字段名称,所述目标表数据包括目标表名称、目标表中的目标字段名称;
基于图计算解析所述数据库源表数据与所述目标表数据,获得所述对应关系。
根据本发明的一个可选的实施方式,所述基于图计算解析所述数据库源表数据与所述目标表数据,获得所述对应关系,包括:
构建基于图神经计算网络的图计算模型;
将所述源字段名称与所述目标字段名称作为所述图计算模型的节点;
将互相之间具有映射关系的源字段名称与目标字段名称相连,将所述源字段名称与所述目标字段名称相连的线作为所述图计算模型的边,获得所述对应关系。
根据本发明的一个可选的实施方式,所述根据所述访问记录与所述对应关系,构建与所述目标字段对应的所述源字段的访问次数矩阵,包括:
根据所述访问记录与所述对应关系,获得所述目标字段对应的源字段组合的访问次数;
将所述源字段组合作为行维属性与列维属性构建二维矩阵,将所述源字段组合的访问次数作为所述二维矩阵的元素,得到所述访问次数矩阵。
根据本发明的一个可选的实施方式,所述根据所述访问记录与所述对应关系,获得所述目标字段对应的源字段组合的访问次数,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210993940.X/2.html,转载请声明来源钻瓜专利网。