[发明专利]分布式学习的数据处理方法、装置、电子设备在审
申请号: | 202110233219.6 | 申请日: | 2021-03-01 |
公开(公告)号: | CN112836765A | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 谭明超;马国强;范涛;陈天健;杨强 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F16/27;G06N20/00 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 崔晓岚;张颖玲 |
地址: | 518027 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 学习 数据处理 方法 装置 电子设备 | ||
本申请提供了一种分布式学习的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品;方法包括:基于多个第二设备各自存储的样本特征数据的样本特征极值和样本数量,确定多个模拟分位点以及对应的多个区间;基于每个第二设备中与每个区间对应的子样本数量,确定每个区间内的总体样本数量;基于每个区间内的总体样本数量以及每个区间对应的模拟分位点,构建每个区间内的模拟数据;基于每个区间内的模拟数据形成总模拟数据,并基于总模拟数据确定目标分位点。通过本申请,能够保护样本特征数据的安全,并快速的得到目标分位点。
技术领域
本申请涉及数据处理技术,尤其涉及一种分布式学习的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
随着大数据、分布式等技术的不断发展,许多领域中需要对特征数据进行特征分箱处理。特征分箱是一种对多个数据进行分组的技术,每个分组可以称之为一个分箱。在机器学习领域中,通过对连续型的特征进行分箱处理,可以将特征离散化,基于特征分箱的分箱结果,考察特征与标签之间的相关程度。例如,基于分箱结果求取信息特征值、证据权重等,以用于对特征数据预处理和特征选择。
相关技术中特征数据通常是存储在多方分布式数据,需要联合多方的特征数据进行特征分箱处理,然而相关技术在进行多方配合进行联合特征分箱时,各方会暴露自身存储的特征数据,引发了数据泄露的危险。
发明内容
本申请实施例提供一种分布式学习的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够保护样本特征数据的安全,并快速的得到目标分位点。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种分布式学习的数据处理方法,包括:
基于多个第二设备各自存储的样本特征数据的样本特征极值和样本数量,确定多个模拟分位点以及对应的多个区间;
基于每个所述第二设备中与所述每个区间对应的子样本数量,确定每个区间内的总体样本数量;
基于所述每个区间内的总体样本数量以及所述每个区间对应的模拟分位点,构建所述每个区间内的模拟数据;
基于所述每个区间内的模拟数据形成总模拟数据,并基于所述总模拟数据确定目标分位点;
将所述目标分位点发送给各所述第二设备,以使
各所述第二设备基于所述目标分位点构建样本集,并基于所述样本集训练用于进行分类任务的机器学习模型。
本申请实施例提供一种分布式学习的数据处理装置,包括:。
模拟分位点确定模块,用于基于多个第二设备各自存储的样本特征数据的样本特征极值和样本数量,确定多个模拟分位点以及对应的多个区间;
区间样本数量确定模块,用于基于每个所述第二设备中与所述每个区间对应的子样本数量,确定每个区间内的总体样本数量;
模拟数据构建模块,用于基于所述每个区间内的总体样本数量以及所述每个区间对应的模拟分位点,构建所述每个区间内的模拟数据;
目标分位点确定模块,用于基于所述每个区间内的模拟数据形成总模拟数据,并基于所述总模拟数据确定目标分位点;
特征数据处理模块,用于将所述目标分位点发送给各所述第二设备,以使各所述第二设备基于所述目标分位点构建样本集,并基于所述样本集训练用于进行分类任务的机器学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110233219.6/2.html,转载请声明来源钻瓜专利网。