[发明专利]数据处理方法、装置、电子设备、存储介质及程序产品在审
| 申请号: | 202211432146.4 | 申请日: | 2022-11-16 |
| 公开(公告)号: | CN115757538A | 公开(公告)日: | 2023-03-07 |
| 发明(设计)人: | 陈才;刘昊骋 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22 |
| 代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 程序 产品 | ||
本公开提供了一种数据处理方法、装置、电子设备、存储介质及程序产品,涉及大数据、特征挖掘、机器学习等人工智能技术领域。该方法包括:在备选数据库表中确定核心数据库表;将核心数据库表作为遍历起始点、核心数据库表的主键作为起始关联要素,通过广度优先遍历算法逐层确定与核心数据库表存在关联的关联数据库表;将核心数据库表作为遍历起始点、将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历算法提取出关联数据。该方法通过先后进行广度优先遍历和深度优先遍历,可以自动化的从数据库中挖掘出能够用于生成数据特征的目标数据,更加便利、效率更高。
技术领域
本公开涉及数据处理技术领域,具体涉及大数据、特征挖掘、机器学习等人工智能技术领域,尤其涉及一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
特征挖掘通常在整个机器学习项目中占据了半数以上的时间,而特征挖掘的效果也决定了整个模型的效果。
常规的特征挖掘主要包含以下几个步骤:确定所有用于特征挖掘的原始数据集、对原始数据集中包含的数据进行筛选、对筛选出的数据类型进行确认、按照确认的数据类型进行特征生成。
发明内容
本公开实施例提出了一种数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
第一方面,本公开实施例提出了一种数据处理方法,包括:在备选数据库表中确定核心数据库表;将核心数据库表作为遍历起始点、核心数据库表的主键作为起始关联要素,通过广度优先遍历算法逐层确定与核心数据库表存在关联的关联数据库表;将核心数据库表作为遍历起始点、将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历算法提取出关联数据。
第二方面,本公开实施例提出了一种数据处理装置,包括:核心数据库表确定单元,被配置成在备选数据库表中确定核心数据库表;广度优先遍历单元,被配置成将核心数据库表作为遍历起始点、核心数据库表的主键作为起始关联要素,通过广度优先遍历算法逐层确定与核心数据库表存在关联的关联数据库表;深度优先遍历单元,被配置成将核心数据库表作为遍历起始点、将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历算法提取出关联数据。
第三方面,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面所描述的数据处理方法。
第四方面,本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面所描述的数据处理方法。
第五方面,本公开实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面所描述的数据处理方法。
本公开所提供的数据处理方案,针对构成数据库的各数据库表,首先在各备选数据库表中确定出作为核心的核心数据库表,然后将核心数据库表作为遍历起始点、以其逐渐作为起始关联要素,通过广度优先遍历的方式逐层确认与核心数据库表存在直接或间接关联的关联数据库表,接着再将上一层的关联数据库表的主键作为从下一层的关联数据库中筛选出关联数据的筛选条件,通过深度优先遍历的方式从各层关联数据库表中筛选出目标数据。即通过先后进行广度优先遍历和深度优先遍历,可以自动化的从数据库中挖掘出能够用于生成数据特征的目标数据,更加便利、效率更高。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征、目的和优点将会变得更明显:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211432146.4/2.html,转载请声明来源钻瓜专利网。





