[发明专利]分布式学习的数据处理方法、装置、电子设备在审
申请号: | 202110233219.6 | 申请日: | 2021-03-01 |
公开(公告)号: | CN112836765A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 谭明超;马国强;范涛;陈天健;杨强 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/27;G06N20/00 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 崔晓岚;张颖玲 |
地址: | 518027 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 学习 数据处理 方法 装置 电子设备 | ||
1.一种分布式学习的数据处理方法,其特征在于,应用于第一设备,所述方法包括:
基于多个第二设备各自存储的样本特征数据的样本特征极值和样本数量,确定多个模拟分位点以及对应的多个区间;
基于每个所述第二设备中与所述每个区间对应的子样本数量,确定每个区间内的总体样本数量;
基于所述每个区间内的总体样本数量以及所述每个区间对应的模拟分位点,构建所述每个区间内的模拟数据;
基于所述每个区间内的模拟数据形成总模拟数据,并基于所述总模拟数据确定目标分位点;
将所述目标分位点发送给各所述第二设备,以使
各所述第二设备基于所述目标分位点构建样本集,并基于所述样本集训练用于进行分类任务的机器学习模型。
2.根据权利要求1所述的方法,其特征在于,所述基于多个第二设备各自存储的样本特征数据的样本特征极值和样本数量,确定多个模拟分位点以及对应的多个区间,包括:
基于多个第二设备各自存储的样本特征数据的样本特征极值和样本数量,确定全局样本特征数据的全局样本特征极值和全局样本数量;其中,所述全局样本特征数据包括所述多个第二设备各自存储的样本特征数据,所述全局样本特征极值包括全局样本特征数据的最大值、最小值;
基于所述全局样本特征极值确定所述全局样本特征数据的总体特征区间;
基于预设分箱数目和所述全局样本特征极值确定距离间隔;
基于所述距离间隔对所述总体特征区间进行等距离划分处理,以确定多个模拟分位点以及对应的多个区间;其中,所述距离间隔为多个模拟分位点中的相邻的模拟分位点之间的差值。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述每个区间内的总体样本数量以及所述每个区间对应的模拟分位点,构建所述每个区间内的模拟数据,包括:
基于所述每个区间对应的模拟分位点确定相应区间的特征数据范围;
基于所述每个区间内的总体样本数量与相应区间的特征数据范围,确定模拟数据分布比例;其中,所述模拟数据分布比例为所述特征数据范围对应的模拟分位点的差值与所述总体样本数量的比值;
基于所述模拟数据分布比例在所述每个区间内,构建均匀分布的模拟数据,其中,相邻的所述模拟数据的差值为所述模拟数据分布比例。
4.根据权利要求1所述的方法,其特征在于,所述基于所述每个区间内的模拟数据形成总模拟数据,并基于所述总模拟数据确定目标分位点,包括:
基于所述模拟分位点将多个区间内的模拟数据进行拼接拟合,以形成总模拟数据;其中,所述总模拟数据是具备特定顺序的数据;
确定分箱比例,基于所述分箱比例对所述总模拟数据进行划分,得到多个不同分箱;其中,所述分箱中包括至少一个子模拟数据,所述不同分箱中的所述子模拟数据的数量一致;
将所述多个不同分箱相应的分位点确定为目标分位点。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
创建多个求取目标分位点任务;
其中,所述多个求取目标分位点任务用于求取不同维度的全局样本特征数据的目标分位点;其中,每一维度的全局样本特征数据表征同一特征的数据,所述全局样本特征数据包括所述多个第二设备各自存储的所述样本特征数据;
并行执行多个求取目标分位点任务,以得到所述不同维度的全局样本特征数据的目标分位点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110233219.6/1.html,转载请声明来源钻瓜专利网。