[发明专利]多表拼接方法、装置、电子设备及存储介质在审
申请号: | 202110667383.8 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113312890A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 周浩;罗远飞;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F40/18 | 分类号: | G06F40/18 |
代理公司: | 北京墨丘知识产权代理事务所(普通合伙) 11878 | 代理人: | 代峰;谷轶楠 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 拼接 方法 装置 电子设备 存储 介质 | ||
本申请公开了一种多表拼接方法、装置、电子设备及存储介质。其中,该方法包括:基于关系数据表集合构建本体视图;其中,关系数据表集合包括主表和至少一个副表,本体视图中的每个节点代表一个数据表,两个节点之间的边代表两个表之间的关系;基于本体视图获取每个副表节点到主表节点的元路径;其中,每条元路径中的相邻两节点之间的连接关系包括对应两表之间的关系和拼表操作符;基于每个元路径,将对应副表中的特征数据拼接到主表中;每个元路径中的中间节点只充当传递节点,其对应数据表的特征数据不通过该元路径传递到主表。本申请使用元路径实现关系型数据库中的多表拼表,可以灵活有效地控制多表特征空间,直观高效地完成了多表特征的聚合。
技术领域
本申请涉及人工智能技术领域,具体涉及一种多表拼接方法、装置、电子设备及存储介质。
背景技术
多表数据是企业应用中常用数据类型,通常企业会将与应用有关的全部数据通过关系数据表集合来采集和管理,关系数据表集合中的多个数据表一般按照数据在现实中的关系来组织和关联。关系数据表集合是一种大而全的数据管理方式,虽然可以实现最广泛的支持,但显然对一些特定应用来说又显得过于复杂和冗余。典型地,对于人工智能模型的机器学习任务来说,由于机器学习算法只能从给定的训练数据中学习,训练中使用的特征的选择有时比模型的选择更重要,所以要优化机器学习任务通常需要构造一个和任务相关的特征。
特征构造也称为特征工程(FeatureEngineering),是从现有数据集合中构造与任务密切相关的新特征从而训练机器学习模型的过程。一般情况下,特征工程都需要从现有的数据集合中构造额外特征,构造过程中使用的特征数据通常分布在多张相关的数据表中,需要从多个数据表中提取相关信息并存入单张数据表中,然后该单张数据表可直接用来训练机器学习模型。其中,多表特征的最优选取对于机器学习任务至关重要,过多无关项或错漏都有可能影响模型的训练效果,甚至导致模型识别/预测能力出现严重偏差。但同时又需要控制多表特征空间的大小,避免太大的特征空间造成大量资源消耗和太长的计算时间,或避免太小的特征空间严重限制模型的效果。
现有技术中,Python库中的FeatureTools工具提出了深度特征合成(DeepFeatureSynthesis,DFS)方法来进行多表特征生成,如图1所示,DFS方法中,数据表所对应的实体(图1中Entity)之间的连接关系分为前向(forward)关系和后向(backward)关系,基于深度优先原则进行多表拼接。
然而,在实现本申请实施例相关技术方案的过程中发明人发现,现有技术至少存在以下问题:一方面,DFS方法中前后向关系分别对应数据库理论中的1-M(一对多)和M-1(多对一)关系,缺少企业应用中常见的1-1(一对一)和M-M(多对多)关系的表示,因此其对企业应用场景的支持较弱。另一方面,DFS方法基于深度优先,实现过程对用户来说并不直观,需要根据其深度优先过程构造一个展开树才能了解具体特征生成情况,因而用户无法有效控制特征生成过程和特征空间的大小,特征工程的自由度和实际效果均受到明显限制。此外,DFS方法中每条聚合路径上的聚合函数都会被经过该路径的特征共享,用户无法有效地针对特征的来源分配不同的聚合函数,这进一步加大了用户对特征空间控制的难度。
发明内容
针对现有技术中的上述技术问题,本申请实施例提出了一种多表拼接方法、装置、电子设备及计算机可读存储介质,以解决现有技术中多表拼接方案难以控制的问题。
本申请实施例的第一方面提供了一种多表拼接方法,包括:
基于关系数据表集合构建本体视图;其中,所述关系数据表集合包括一个主数据表和至少一个副数据表,所述本体视图中的每个节点代表一个数据表,所述本体视图中两个节点之间的关系边代表对应两个数据表之间的关系;
基于所述本体视图,获取每个副数据表节点到主数据表节点的元路径;其中,每条元路径中的相邻两个节点之间的连接关系包括对应两个数据表之间的关系和拼表操作符;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110667383.8/2.html,转载请声明来源钻瓜专利网。