[发明专利]一种基于差分隐私及随机梯度下降的数据分类方法在审
申请号: | 202011083670.6 | 申请日: | 2020-10-12 |
公开(公告)号: | CN112232401A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 吴蒙;朱勇;杨立君 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F21/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 隐私 随机 梯度 下降 数据 分类 方法 | ||
1.一种基于差分隐私及随机梯度下降的数据分类方法,其特征在于,包括以下步骤:
(1)将数据集中的数据分配到各个分布式计算节点上,通过Map分任务在每个节点上执行随机梯度下降算法,利用Reduce分任务进行更新模型合并操作;
(2)在更新后的模型中加入适量拉普拉斯噪声,使最终随机梯度下降算法的目标模型满足ε-差分隐私。
2.根据权利要求1所述的基于差分隐私及随机梯度下降的数据分类方法,其特征在于,所述步骤(1)包括以下步骤:
(11)主任务Driver将差分隐私保护总预算ε平均分成N份,并分配给N个Reduce节点,每个Reduce节点初始差分隐私保护预算为将数据记录进行归一化处理,并给每一个ni赋予一个计数初值Ki,以数据对ni,Ki的形式存储;
(12)主任务随机抽取num×M个数据对组成M个样本组,每组样本中包含num条记录,并指派M个分任务执行Map操作,N个分任务执行Reduce操作,每个数据对中Ki的值等于数据对被抽取的次数;设定在Ki超过计数阈值Cou后,对应的数据对将不再被抽取;
(13)Map分任务接收包含num个数据对的样本组,运行Map函数,选择Ki值小于阈值函数L(u)值的数据对中的ni为更新数据集,其他数据作为误差计算数据集,执行梯度下降算法,更新分目标模型W(u),更新次数u+=1;计算W(u)相对误差计算数据集的误差,记为error(u),当误差计算数据集为空时,默认error(u)=0;当u超过更新次数阈值Max,则丢失该节点Map任务。
3.根据权利要求1所述的基于差分隐私及随机梯度下降的数据分类方法,其特征在于,所述步骤(2)包括以下步骤:
(21)Reduce分任务接收各个Map中满足error(u)<E且Δerror<0的分目标模型W(u),运行Reduce函数;以各个分目标函数所对应的error值的反比为权重合成本次迭代的目标更新模型Wupdate,并加入随机噪声,更新次数U+=1;
(22)主任务接收各个Reduce节点的输出结果Wupdate并进行合并得到WF,以数据集中Ki值最小的前Jud个数据对中的ni为测试数据,计算WF的误差Error,若Error<Efinal且所有数据对中Ki>Kmax的比例超过Per,算法结束,输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011083670.6/1.html,转载请声明来源钻瓜专利网。