[发明专利]数据处理方法及装置、电子设备、存储介质有效
申请号: | 201811338828.2 | 申请日: | 2018-11-12 |
公开(公告)号: | CN109491989B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 陈雪松 | 申请(专利权)人: | 北京懿医云科技有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/28 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 袁礼君;阚梓瑄 |
地址: | 100195 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
1.一种数据处理方法,其特征在于,包括:
根据源数据库中的数据表的定义建立具有相同数据表结构的抽样库;所述抽样库与所述源数据库的数据量不同;
通过所述源数据库中各数据表与目标数据库中各目标数据表之间的关联关系,确定所述源数据库中各数据表之间的字段关系的集合,所述字段关系用于表示不同数据表之间通过对应的字段进行关联;
按照所述集合中的所述字段关系对所述源数据库中的数据表进行关联,并对关联后的数据表进行抽样得到样本数据;
将所述样本数据存储至所述抽样库,以通过所述抽样库进行数据生产;
其中,所述按照所述集合中的所述字段关系对所述源数据库中的数据表进行关联,并对关联后的数据表进行抽样得到样本数据,包括:
对于所述源数据库中的第二类型表,根据所述字段关系构建关联关系树,所述关联关系树中的每个节点代表所述源数据库要抽样的一张数据表;
依次按照所述关联关系树中的各个节点对所有第二类型表进行抽样,以得到所述样本数据。
2.根据权利要求1所述的数据处理方法,其特征在于,所述源数据库中的数据表包括第一类型表和第二类型表。
3.根据权利要求2所述的数据处理方法,其特征在于,按照所述集合中的所述字段关系对所述源数据库中的数据表进行关联,并对关联后的数据表进行抽样得到样本数据包括:
对于所述第一类型表,抽取所述第一类型表中的所有数据作为样本数据。
4.根据权利要求1所述的数据处理方法,其特征在于,根据所述字段关系构建关联关系树包括:
将所有包含预设字段的第二类型表作为起始表,并根据所述起始表与剩余的第二类型表之间的字段关系构建所述关联关系树。
5.根据权利要求4所述的数据处理方法,其特征在于,依次按照所述关联关系树中的各个节点对所有第二类型表进行抽样包括:
按照所述关联关系树中的各个节点,对所有包含所述预设字段的所述第二类型表进行抽样,得到所述样本数据。
6.一种数据处理装置,其特征在于,包括:
抽样库建立模块,用于根据源数据库中的数据表的定义建立具有相同数据表结构的抽样库;所述抽样库与所述源数据库的数据量不同;
字段关系确定模块,用于通过所述源数据库中各数据表与目标数据库中各目标数据表之间的关联关系,确定所述源数据库中各数据表之间的字段关系的集合,所述字段关系用于表示不同数据表之间通过对应的字段进行关联;
数据抽样模块,用于按照所述集合中的所述字段关系对所述源数据库中的数据表进行关联,并对关联后的数据表进行抽样得到样本数据;
数据生产模块,用于将所述样本数据存储至所述抽样库,以通过所述抽样库进行数据生产;
其中,所述按照所述集合中的所述字段关系对所述源数据库中的数据表进行关联,并对关联后的数据表进行抽样得到样本数据,包括:
对于所述源数据库中的第二类型表,根据所述字段关系构建关联关系树,所述关联关系树中的每个节点代表所述源数据库要抽样的一张数据表;
依次按照所述关联关系树中的各个节点对所有第二类型表进行抽样,以得到所述样本数据。
7.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-5任意一项所述的数据处理方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任意一项所述的数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京懿医云科技有限公司,未经北京懿医云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811338828.2/1.html,转载请声明来源钻瓜专利网。