[发明专利]面向社交网络的高可用性K-匿名数据处理方法、装置、电子设备及存储介质在审
| 申请号: | 202110751023.6 | 申请日: | 2021-07-02 |
| 公开(公告)号: | CN113486396A | 公开(公告)日: | 2021-10-08 |
| 发明(设计)人: | 朱娜斐;王俊雯;何泾沙;王贺文;李越 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06K9/62 |
| 代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 王维新 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 面向 社交 网络 可用性 匿名 数据处理 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种面向社交网络的高可用性K‑匿名数据处理方法、装置、电子设备及存储介质,属于数据安全技术领域,包括基于社交网络,构建社交网络的无向图,无向图中每个节点对应代表每个用户,任意两个节点间的连线代表对应两个用户的结构关系;对每个用户进行相似性分析,获取用户之间的相似度值;根据用户之间的相似度值对用户进行聚类,获得初始的聚类集合;K匿名形成超级节点;对超级节点匿名发布。本发明本发明通过相似度来将用户进行聚类,且将聚集程度最大的节点来选择初始种子节点,使得该方法的可用性有了明显增强。
技术领域
本发明属于数据安全技术领域,特别涉及一种面向社交网络的高可用性K-匿名数据处理方法、装置、电子设备及存储介质。
背景技术
目前K-匿名算法已经在关系型数据上广泛应用,在社交网络也有一定的应用,但是社交网络是一个错综复杂的网络,其中的节点,边和节点之间的关系都包含了大量的隐私信息,传统的K-匿名数据保护技术在社交网络不太适用。存在以下一些不足之处:现在有信息保护算法考虑用户信息不全面,在一定程度上对数据造成破坏或缺失;在选取K-匿名算法的初始节点时,没有考虑到社交网络的特性,随机选取,导致数据信息损失严重;现有的信息保护算法没有明确的考虑到用户真实需要的信息保护力度,导致对于节点的保护失衡,使其数据有效性降低。
发明内容
针对上述存在的问题,本发明提供一种面向社交网络的高可用性K-匿名数据处理方法、装置、电子设备及存储介质。
一种面向社交网络的高可用性K-匿名数据处理方法包括:
基于社交网络,构建所述社交网络的无向图,所述无向图中每个节点对应代表每个用户,任意两个节点间的连线代表对应两个用户的结构关系;
对每个所述用户进行相似性分析,获取所述用户之间的相似度值;
根据所述用户之间的相似度值对所述用户进行聚类,获得初始的聚类集合;
K匿名形成超级节点;
对所述超级节点匿名发布;
其中,K匿名形成超级节点包括:
根据公式计算所述节点在所述无向图中的聚集程度:
其中,k为所述节点vi的所有相邻节点的个数,n为所述节点vi的所有相邻节点之间相互连接的边的个数;
选取聚集程度最大的节点位于的聚类集合,判断所述聚类集合中的所述节点数量是否大于等于设定的隐私水平K;若符合,则所述聚集程度最大的节点为初始种子节点;若不符合,则选取与所述聚集程度最大的节点距离最大的节点位于的聚类集合进行判断,依次类推,直至选到符合的初始种子节点;
计算所述初始种子节点和每个所述节点的距离,选择最近的节点合并为超级节点;
重复合并为所述超级节点的过程,直至当前所述超级节点包含的节点数量达到设定的隐私水平K;
去除所述超级节点包含的所有节点,重复生成超级节点直至剩余的节点数量小于设定的隐私水平K;
分别计算所述剩余的节点与之前生成的所述超级节点的距离,并逐个将所述剩余的节点分别合并到距离最小的所述超级节点中,直至所有的节点均聚类成所述超级节点。
优选的是,对每个所述用户进行相似性分析,获取所述用户之间的相似度值包括:
分别计算所述用户的文本信息的相似度、结构信息相似度以及属性信息相似度;
并根据公式获得所述用户之间的相似度;
相似度值=a*文本信息相似度+b*结构信息相似度+c*属性信息相似度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110751023.6/2.html,转载请声明来源钻瓜专利网。





