[发明专利]MapReduce框架下决策树的差分隐私保护方法有效

专利信息
申请号: 202010043937.2 申请日: 2020-01-15
公开(公告)号: CN111259442B 公开(公告)日: 2022-04-29
发明(设计)人: 王金艳;颜奇;李先贤 申请(专利权)人: 广西师范大学
主分类号: G06F21/62 分类号: G06F21/62;G06N20/00
代理公司: 桂林市持衡专利商标事务所有限公司 45107 代理人: 陈跃琳
地址: 541004 广西壮*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: mapreduce 框架 决策树 隐私 保护 方法
【说明书】:

发明公开一种MapReduce框架下决策树的差分隐私保护方法,首先,在MapReduce框架下基于差分隐私的决策树的实现大幅地减少了算法的计算时间并避免了对大规模数据分类时的内存限制;接着,在决策树构建过程中,利用指数机制将皮尔逊相关系数的平均值作为质量函数来挑选出当前节点的最佳分裂属性及属性值,在保护用户数据隐私的同时最终生成规模小、泛化性能好的决策树模型;最后对决策树的叶节点中的样本计数用拉普拉斯机制进行加噪,从而在决策树模型预测未知样本时保护了用户数据的隐私。

技术领域

本发明涉及隐私保护技术领域,具体涉及一种MapReduce框架下决策树的差分隐私保护方法。

背景技术

随着信息技术和大数据产业的飞速发展,个人数字信息也在快速增长。对搜集到的个人数据进行分析和挖掘能够发现大量有价值的信息。决策树是许多数据挖掘中最有效和最广泛使用的技术之一,例如模式识别、机器学习、图像处理和信息检索,近年来已经得到了大量的研究,越来越多的决策树算法相继涌现。通过决策树方法,我们可以对大量的数据进行分析来发现深层次的知识和规律,从而进一步指导企业、组织的发展决策。到目前为止,许多决策树方法在小型或中型数据集上表现良好。然而,由于存储器限制、时间复杂度和数据复杂度的一些瓶颈,很难从大规模数据集中训练决策树。Yashuang Mu等人在2017年提出了一种基于皮尔逊相关系数的并行决策树算法,该方法在一种分布式计算框架MapReduce下训练出了以皮尔逊相关系数为杂质度量函数的决策树,很好地解决了决策树算法在大规模数据集上表现不佳的问题。但是该方法没有考虑到用户的隐私问题,当数据集中包含有个人敏感信息时(如某个患者的诊断结果、某个客户的消费记录等),敌手可以大概率的推测出用户的个人信息,从而导致个人敏感信息受到威胁。

发明内容

本发明所要解决的是在MapReduce框架下应用决策树模型解决二分类或多分类任务运行期间所导致的隐私泄露的问题,提供一种MapReduce框架下决策树的差分隐私保护方法。

为解决上述问题,本发明是通过以下技术方案实现的:

MapReduce框架下决策树的差分隐私保护方法,包括步骤如下:

步骤1、初始化:给定决策树最大深度h和不相交子集的个数m,令当前决策树深度j=0,令集合Ωj为原始数据集,并将原始数据集中的所有条件属性归入条件属性集;

步骤2、将集合Ωj中的一个数据集视为当前数据集,将当前数据集划分为m个不相交的子集;

步骤3、对于当前数据集的每个子集:计算该子集中的每个条件属性和决策属性之间的皮尔逊相关系数,并据此计算该子集的子集最佳分裂点;同时,统计该子集的子集类分布;

步骤4、基于步骤3所得的每个子集的子集最佳分裂点,计算当前数据集的平均最佳分裂点;同时,基于步骤3所得的每个子集的子集类分布,统计当前数据集的总类分布;

步骤5、基于步骤3所得的m个子集中每个条件属性和决策属性之间的皮尔逊相关系数,计算每个条件属性在当前数据集的平均皮尔逊相关系数;然后将每个条件属性的平均皮尔逊相关系数作为其质量函数,利用指数机制挑选出输出概率最大的条件属性作为当前最佳分裂属性,该条件属性在当前数据集中所对应的平均最佳分裂点作为当前最佳分裂点;

步骤6、判断步骤4所得的当前数据集的总类分布是否仅包含一个类别,或者当前决策树深度j是否等于决策树最大深度h:

如果是,则不再划分当前数据集,并对当前数据集的类计数添加拉普拉斯噪声,且将当前数据集移出集合Ωj,然后进一步判断集合Ωj是否为空:如果是,则转至步骤7;否则,继续返回步骤2开始处理集合Ωj中的下一个数据集;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010043937.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top