[发明专利]基于敏感属性值约束的匿名保护方法在审

申请号：	202210267491.0	申请日：	2022-03-18
公开（公告）号：	CN114817977A	公开（公告）日：	2022-07-29
发明（设计）人：	栾英姿;荣林通	申请（专利权）人：	西安电子科技大学
主分类号：	G06F21/62	分类号：	G06F21/62;G06K9/62;H04L9/40
代理公司：	西安智大知识产权代理事务所 61215	代理人：	段俊涛
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于敏感属性约束匿名保护方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于敏感属性值约束的匿名保护方法，以期解决现有基于聚类的匿名化技术造成的数据信息损失问题，在有效保护用户隐私安全的情况下降低发布数据的信息损失。利用本发明的匿名保护方法得到匿名数据集之后，再通过网络发布匿名数据集，具有更好的用户隐私保护效果。在实际应用中，可利用数据采集模块，获取原始数据集；并将原始数据集存储于数据存储模块一，以数据处理模块运行本发明的匿名保护方法得到匿名数据集，并将其存储于数据存储模块二，利用网络传输模块向网络上传匿名数据集。原始数据集保存于本地的数据存储模块一，并不对外公开。

技术领域

本发明属于网络安全技术领域，特别涉及一种基于敏感属性值约束的匿名保护方法。

背景技术

网上活动使得个人信息存储在网络中，这些数据往往会包含个人敏感信息，如金融交易、电话通信流量、医疗保健记录等。相关机构有时需要通过数据库检索、挖掘大量的电子记录来进行数据分析，虽然数据挖掘可提高用户有用信息的检索效率，但数据的发布和共享可能会造成用户的敏感信息被泄露。因此，为了保护网络中用户数据的隐私安全，存储在网络中的数据需要在共享或者发布前进行一定的处理。

针对用户的隐私保护问题，研究者们提出了数据信息匿名化的保护模型。该模型通过将用户信息进行匿名化来掩盖具体的数据，使得攻击者无法分辨出具体用户，进而保护数据安全。传统的基于聚类的k-匿名化算法随机选取聚类中心点造成聚类结果不准确，从而导致信息损失较大，此外，传统的基于聚类的k-匿名算法没有考虑敏感属性值约束，容易受到同质攻击、偏斜性攻击以及相似性攻击，因此在进行用户信息匿名化处理的时候还要考虑敏感属性值对匿名技术的影响。由于匿名化技术使得原始的数据被改动，虽然隐私信息被保护，但向外界提供的数据可用性就被降低。因此，在满足用户信息安全的情况下，还要考虑如何提高数据的可用性。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于敏感属性值约束的匿名保护方法，以期解决现有基于聚类的匿名化技术造成的数据信息损失问题，在有效保护用户隐私安全的情况下降低发布数据的信息损失。

为了实现上述目的，本发明采用的技术方案是：

一种基于敏感属性值约束的匿名保护方法，包括如下步骤：

步骤1，对待发布的网络用户原始数据集D＝{X₁,X₂,X₃,...,X_N}进行聚类，获取m个初始聚类中心点U＝{μ₁,μ₂,...,μ_m}，根据语义相似程度划分敏感属性类别，并计算每个敏感属性类别的α约束阈值初始化原始数据集D的簇集合E＝{C₁,C₂,...,C_m}为其中N为原始数据集D的数据个数，m为原始数据集D的簇个数；

步骤2，从U依次选取一个聚类中心μ_i；

如果执行步骤3；

如果执行步骤5；

步骤3，从数据集D中找到离μ_i最近的数据X_i；

如果μ_i的敏感属性值和X_i的敏感属性值不同，并且簇C_i中的敏感属性值种类数小于l，则将X_i归入簇C_i中，并从原始数据集D中删除X_i，更新C_i和D得到C_i′和D′：C_i′←C_i∪{X_i}，D′←D-{X_i}，←表示更新符号；l是约束的同一个簇中敏感属性值的种类个数；