[发明专利]一种基于生成式人工智能的去隐私方法和系统有效
| 申请号: | 202211288243.0 | 申请日: | 2022-10-20 |
| 公开(公告)号: | CN115357941B | 公开(公告)日: | 2023-01-13 |
| 发明(设计)人: | 王舸;岑忠培;赵雪峰 | 申请(专利权)人: | 北京宽客进化科技有限公司 |
| 主分类号: | G06F21/62 | 分类号: | G06F21/62;G06N3/08 |
| 代理公司: | 北京格汇专利代理事务所(特殊普通合伙) 16088 | 代理人: | 张伟洋 |
| 地址: | 100088 北京市西城*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 生成 人工智能 隐私 方法 系统 | ||
本申请公开了一种基于生成式人工智能的去隐私方法和系统,所述方法包括:对目标数据进行特征编码、约束差分计算和归一化处理;基于处理后的目标数据根据监控指标对生成式对抗网络进行训练;将随机变量输入所述生成式对抗网络,得到所述目标数据的合成数据;对所述目标数据和所述目标数据的合成数据进行统计特征和覆盖范围的计算,若满足设定条件,则确定为待测试数据;对所述目标数据和所述待测试数据进行连接攻击,若满足设定条件,则将所述目标数据的合成数据确定为所述目标数据的去隐私数据。高效且高质量的对数据进行去隐私处理。
技术领域
本申请实施例涉及数据安全技术领域,具体涉及一种基于生成式人工智能的去隐私方法和系统。
背景技术
当前随着人工智能、物联网及大数据技术的发展,数据的隐私需求越来越强烈。隐私本质上是一种信息,一种属于私人不愿意为他们知晓或者干涉的信息。当个人隐私数据提供给某些群体使用,所有权和使用权产生了分离。此时若对隐私数据不加以保护,个人隐私数据可能有意无意地被不必要的人看到和扩散,甚至或造成滥用。
随着人工智能技术在隐私领域的应用发展,越来越多的专家意识到生成式人工智能可以有效地帮助数据进行隐私处理,高维匿名化技术可以从根本上解决数据被泄露的隐患。现有生成对抗模型(GAN)等生成式人工智能学习训练数据的高维统计特性,在保证数据可用性的前提下实现匿名化,不会被隐私攻击手段攻破。
传统的结构化数据去识别技术包括脱敏技术、K匿名、差分隐私等;这些技术都存在着一些问题和缺陷,例如脱敏技术按照预设的规则或者变换算法进行数据变换,从而使得个人身份无法识别或者直接隐去敏感信息,导致脱敏后的数据会出现一定程度上的信息损耗。k-匿名技术则容易被一些隐私攻击手段攻破。差分隐私由于引入了随机数因此会造成一定程度上的信息损失,降低数据的可用性。
发明内容
为此,本申请实施例提供一种基于生成式人工智能的去隐私方法和系统,高效且高质量的对数据进行去隐私处理。
为了实现上述目的,本申请实施例提供如下技术方案:
根据本申请实施例的第一方面,提供了一种基于生成式人工智能的去隐私方法,所述方法包括:
对目标数据进行特征编码、约束差分计算和归一化处理;
基于处理后的目标数据根据监控指标对生成式对抗网络进行训练;
将随机变量输入所述生成式对抗网络,得到所述目标数据的合成数据;
对所述目标数据和所述目标数据的合成数据进行统计特征和覆盖范围的计算,若满足设定条件,则确定为待测试数据;
对所述目标数据和所述待测试数据进行连接攻击,若满足设定条件,则将所述目标数据的合成数据确定为所述目标数据的去隐私数据。
可选地,在对目标数据进行特征编码、约束差分计算和归一化处理之前,所述方法还包括:
对所述目标数据进行离群点去除和缺失数据插补。
可选地,基于处理后的目标数据根据监控指标对生成式对抗网络进行训练,包括:
基于处理后的目标数据,根据监控指标对所述生成式对抗网络的训练过程进行控制,经过多次迭代和超参调整,学习出生成式对抗网络的参数,以完成所述生成式对抗网络的训练。
可选地,所述监控指标按照如下公式计算:
其中,E和G为数据集,为E和G数据集分布之间的距离,若E数据集中任意一个点Ei距离最近的第L个点来自于数据集E∪G,则1Ei(l)取值为1,否则为0。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京宽客进化科技有限公司,未经北京宽客进化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211288243.0/2.html,转载请声明来源钻瓜专利网。





