[发明专利]一种基于互信息相关技术的差分隐私动态数据发布方法在审
申请号: | 202011014417.5 | 申请日: | 2020-09-24 |
公开(公告)号: | CN112131605A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 冉家敏;刘胜军;谢飞;倪志伟;陈千;丁正;朱旭辉;倪丽萍 | 申请(专利权)人: | 合肥城市云数据中心股份有限公司;合肥工业大学 |
主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62;G06N7/08 |
代理公司: | 合肥国和专利代理事务所(普通合伙) 34131 | 代理人: | 张祥骞 |
地址: | 230031 安徽省合肥市高新区玉*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互信 相关 技术 隐私 动态 数据 发布 方法 | ||
1.一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,包括以下步骤:
11)动态数据流的获取:获取待处理的动态数据流;
12)动态数据流的分割:利用滑动窗口技术对动态数据流进行分割,使数据以静态方式展示在滑动窗口中;
13)初始聚类处理:随机抽取滑动窗口内的数据,对其进行初始聚类,计算初始聚类中每个簇的分形维数;
14)待发布分组的形成:对滑动窗口内的剩余数据进行分形维数聚类,利用互信息计算每个聚类成员的权值,选择符合条件的聚类成员,对每个聚类成员的聚类结果进行按类统计,形成待发布分组;
15)分组数据的发布:对待发布分组的数据进行拉普拉斯加噪,发布加噪后的分组数据;
对每个聚类成员的每个簇的统计分组结果进行拉普拉斯加噪,
其中ε表示隐私预算,得到每个聚类成员加入噪声干扰的数据:
16)差分隐私动态数据的发布:当某个聚类成员的分组数据的数量达到滑动窗口大小时,滑动窗口向前平移,重复初始聚类处理、待发布分组的形成和分组数据的发布步骤,完成差分隐私动态数据的发布。
2.根据权利要求1所述的一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,所述初始聚类处理包括以下步骤:
21)抽取滑动窗口内70%-90%的数据量,对其进行初始聚类:
将从第D个数据集XD抽取出的部分数据组成数据集XD',对其进行H次初始聚类,得到H个初始聚类结果,组成聚类结果集λ={λ1,λ2,...,λi,...,λH},λi表示第i次聚类结果;
22)若将初始聚类的簇数设置为k个,则第i次聚类结果λi中每个簇分别记为分别计算每个簇对应的分形维数,其中,第k个簇的分形维数记为
其中,计算每个簇的分形维数的公式为:
式中,r表示覆盖数据空间所用的盒子边长,r1表示最小边长,r2表示最大边长;q表示阶数,取值可以不同,当q=0时,表示该维数是豪斯道夫维数,当q=1时,表示该维数是信息维数,当q=2时,表示该维数是关联维数;表示盒子所覆盖的数据点数。
3.根据权利要求1所述的一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,所述待发布分组的形成包括以下步骤:
31)对滑动窗口内的剩余数据,抽取其中的每一个数据点e,将它加入到每一个初始聚类的簇中,得到
其中
32)分别计算加入新的数据点e后组成新的簇的分形维数;
33)计算加入数据点前后的分形影响度Vi,其计算公式如下:
式中,表示第i个聚类成员的第k个簇的分形影响度,表示第i个聚类成员的第k个簇的分形维数,表示第i个聚类成员的第k个簇加入数据点e后的分形维数;
34)找到每一个数据点e加入后分形影响度最小的簇,若其对应的分形影响度小于给定阈值δ,则认为数据点e属于该簇,加入该簇中;若数据点e未找到任何符合的簇,则将其判定为离群点;
35)利用互信息计算每个聚类成员的权值;
36)当聚类成员的权值小于给定阈值μ时,舍弃,留下权值大于μ的聚类成员,得到部分聚类成员λ'={λ′1,λ′2,...,λ′i,...,λ'H}。
4.根据权利要求3所述的一种基于互信息相关技术的差分隐私动态数据发布方法,其特征在于,所述利用互信息计算每个聚类成员的权值为:
设定计算互信息的公式为:
式中,λp和λq表示聚类成员,p,q为整数,且1≤p,q≤H,n表示数据集大小,k表示聚类的簇数,ni表示聚类成员λp中属于第i个簇的数据点的数量,nj表示聚类成员λq中属于第j个簇的数据点的数量,nij表示聚类成员λp中第i个簇和聚类成员λq中第j个簇之间所含有的相同数据点的数量;
计算平均互信息的公式为:
式中,αi表示第i个聚类成员的平均互信息;
计算聚类成员的权值的公式为:
式中,ωi满足ωi0(i=1,2,...,H)且
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥城市云数据中心股份有限公司;合肥工业大学,未经合肥城市云数据中心股份有限公司;合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011014417.5/1.html,转载请声明来源钻瓜专利网。