[发明专利]数据处理方法、装置、设备和存储介质有效
申请号: | 202110569135.X | 申请日: | 2021-05-25 |
公开(公告)号: | CN113037489B | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 荆博 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | H04L9/30 | 分类号: | H04L9/30;H04L9/08;H04L29/08;G06F21/62 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 存储 介质 | ||
本公开提供了一种数据处理方法、装置、设备和存储介质,涉及数据处理技术领域,尤其涉及大数据、人工智能和区块链技术,可用于云计算和云服务。具体实现方案由多方节点中的任一节点执行,包括:根据本机节点的第一样本数据的初始统计值的偏离秘密,以及获取的多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密,确定目标统计值;根据目标统计值,对第一样本数据进行标准化处理;目标统计值包括多方节点的全部样本数据在预定特征维度下的特征总均值、特征总方差和特征总标准差中的至少一种。本公开的技术方案使得多方节点中的各节点在对各自样本数据进行统一标准化的同时,避免了直接进行初始统计值交互造成各节点数据隐私的泄露。
技术领域
本公开涉及数据处理技术领域,尤其涉及大数据、人工智能和区块链技术,可用于云计算和云服务。
背景技术
随着人工智能技术的发展,机器学习在各个场景中得到了越来越广泛的应用。在机器学习的方案中,在开始训练模型之前,通常需要对样本集合进行标准化处理,以消除量纲影响,并加速模型收敛。
在分布式机器学习中,多个参与方需要共享样本数据,以实现各方样本数据的统一标准化。然而,上述方式给各参与方的数据安全带来了隐患。
发明内容
本公开提供了一种多方节点在保证数据隐私的情况下,进行统一标准化的数据处理方法、装置、设备和存储介质。
根据本公开的一方面,提供了一种数据处理方法,由多方节点中的任一节点执行,包括:
根据本机节点的第一样本数据的初始统计值的偏离秘密,以及获取的所述多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密,确定目标统计值;
根据所述目标统计值,对所述第一样本数据进行标准化处理;
其中,所述目标统计值包括所述多方节点的全部样本数据在预定特征维度下的特征总均值、特征总方差和特征总标准差中的至少一种。
根据本公开的另一方面,还提供了一种数据处理装置,配置于多方节点中的任一节点,包括:
目标统计值确定模块,用于根据本机节点的第一样本数据的初始统计值的偏离秘密,以及获取的所述多方节点中其他节点各自的第二样本数据的初始统计值的偏离秘密,确定目标统计值;
标准化处理模块,用于根据所述目标统计值,对所述第一样本数据进行标准化处理;
其中,所述目标统计值包括所述多方节点的全部样本数据在预定特征维度下的特征总均值、特征总方差和特征总标准差中的至少一种。
根据本公开的另一方面,还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开实施例所提供的任意一种数据处理方法。
根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开实施例所提供的任意一种数据处理方法。
根据本公开的另一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开实施例所提供的任意一种数据处理方法。
根据本公开的技术,为多方节点的样本数据的统一标准化提供了新思路,同时避免了各节点的数据泄露。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110569135.X/2.html,转载请声明来源钻瓜专利网。