[发明专利]通过机器学习确定主键-外键关系有效
申请号: | 201780056658.6 | 申请日: | 2017-06-23 |
公开(公告)号: | CN109804362B | 公开(公告)日: | 2023-05-30 |
发明(设计)人: | 徐永明;拉姆·达亚尔·戈亚尔 | 申请(专利权)人: | 日立数据管理有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06N20/00 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 曾贤伟 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 提供了一种用于通过机器学习(ML)来确定目标数据库的表中的数据之间的主键‑外键(PK‑FK)关系的方法和机器学习关系确定系统(MLRDS)。MLRDS选择目标数据库中表的列,并从所选列中标识包含依赖(ID)对。MLRDS从源数据库接收训练数据和验证数据,计算包含依赖对、训练数据和验证数据的PK‑FK特征,并使用PK‑FK特征生成训练ML模型和验证ML模型。MLRDS确定所选机器学习分类算法(MLCA)的最优算法判定阈值,MLRDS使用该最优算法判定阈值确定包含依赖对是PK‑FK对还是非PK‑FK对的结果。MLRDS对多个MLCA的结果执行多数投票,以确认包含依赖对之间的PK‑FK关系。 | ||
搜索关键词: | 通过 机器 学习 确定 主键 关系 | ||
【主权项】:
1.一种用于通过机器学习来确定目标数据库的多个表中的数据之间的主键‑外键关系的方法,所述方法采用机器学习关系确定系统,所述机器学习关系确定系统包括至少一个处理器,所述处理器被配置为执行用于执行所述方法的计算机程序指令,所述方法包括:通过所述机器学习关系确定系统针对所述目标数据库中的每一个表从所述表中的第一表选择第一列数据,并从所述表中的第二表选择第二列数据,其中,所述第一列数据包括第一列名称,并且所述第二列数据包括与所述第一列名称不同的第二列名称;在确定所选定的所述第二列数据的数据元素整体存在于所选定的所述第一列数据中时,通过所述机器学习关系确定系统将所选定的所述第一列数据标识为预期主键,并将所选定的所述第二列数据标识为预期外键,以形成包含依赖对;通过所述机器学习关系确定系统从源数据库接收多个预定包含依赖对,所述多个预定包含依赖对包括被分类为正训练数据和正验证数据的主键‑外键对以及被分类为负训练数据和负验证数据的非主键‑外键对,其中,所述正验证数据和所述负验证数据形成验证数据集;通过所述机器学习关系确定系统将所述正训练数据和所述负训练数据分割成训练数据集;通过所述机器学习关系确定系统计算所述预期主键和所述预期外键的所述包含依赖对、所述训练数据集和所述验证数据集的多个主键‑外键特征;由所述机器学习关系确定系统通过使用所述训练数据集和计算出的所述训练数据集的主键‑外键特征来训练一个或多个机器学习分类算法中的每一个以生成与所述训练数据集相对应的经训练的机器学习模型;在使用计算出的所述验证数据集的主键‑外键特征利用所述验证数据集来测试所生成的与所述训练数据集相对应的经训练的机器学习模型时,通过所述机器学习关系确定系统针对所述一个或多个机器学习分类算法中的每一个来生成经验证的机器学习模型;通过所述机器学习关系确定系统使用所生成的经验证的机器学习模型来确定所述一个或多个机器学习分类算法中的每一个的最优算法判定阈值;使用所确定的所述最优算法判定阈值和计算出的所述预期主键和所述预期外键的所述包含依赖对的主键‑外键特征,由所述机器学习关系确定系统针对所述一个或多个机器学习分类算法中的每一个来确定所述包含依赖对的结果是主键‑外键对和非主键‑外键对中的一个;以及通过所述机器学习关系确定系统对所述一个或多个机器学习分类算法中的每一个的所确定结果执行多数投票,以确定所述第一表的所选定的所述第一列数据中的数据与所述第二表的所选定的所述第二列数据中的数据之间的主键‑外键关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日立数据管理有限公司,未经日立数据管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201780056658.6/,转载请声明来源钻瓜专利网。
- 上一篇:计算系统中的文件同步
- 下一篇:使用通过示例的格式修改的连接