[发明专利]一种可还原脱敏的数据清洗及交换办法在审
申请号: | 201910930237.2 | 申请日: | 2019-09-29 |
公开(公告)号: | CN110737651A | 公开(公告)日: | 2020-01-31 |
发明(设计)人: | 贺昌海;彭秀胜 | 申请(专利权)人: | 武汉海昌信息技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F21/62 |
代理公司: | 42247 武汉红观专利代理事务所(普通合伙) | 代理人: | 李季 |
地址: | 430000 湖北省武汉市东湖新技术*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感数据 脱敏 预处理 数据清洗 归一化处理 复杂系数 难度系数 缺失数据 冗余数据 数据交换 算法模型 统一标识 危险系数 无用数据 异常数据 重复数据 鲁棒性 有效地 脏数据 破解 移除 过滤 还原 安全 挖掘 转换 检测 交换 分析 | ||
1.一种可还原脱敏的数据清洗及交换办法,其特征在于:包括以下步骤:
S1、在敏感数据脱敏使用前进行预处理;所述预处理具体包括:数据清洗、数据变换、数据规约;
S2、在敏感数据脱敏使用后进行溯源审计。
2.如权利要求1所述的一种可还原脱敏的数据清洗及交换办法,其特征在于:所述S1中数据清洗包括以下步骤:
S101、对敏感数据进行缺失值检测,所述缺失值为敏感数据中数据取值为空的数据,删除检测到的缺失值;
S102、对缺失值检测后的敏感数据进行异常值检测,所述异常值为超过预设的离散程度的数据,删除检测到的异常值;
S103、对异常值检测后的敏感数据进行重复值检测,并删除检测到的重复值。
3.如权利要求2所述的一种可还原脱敏的数据清洗及交换办法,其特征在于:所述S1中数据变换包括以下步骤:
S201、将敏感数据汇集成异构数据集,对异构数据集的所有记录进行统一用户标识;
S202、采用不对称加密算法对敏感数据中的敏感属性字段进行加密替换。
4.如权利要求3所述的一种可还原脱敏的数据清洗及交换办法,其特征在于:所述S201统一用户标识具体包括以下步骤:
S301、将异构数据集中的异构数据分为两类:用户的属性信息和用户的社交网络关系;所述用户的属性信息为用户的基本信息;所述用户的社交网络关系为根据用户行为产生的数据形成数据间的社交网络关系;
S302、根据异构数据之间的字段相似性和用户对之间的社交网络关系匹配性判断异构数据是否为同一个用户的数据,并将判断为同一用户的数据存储在数据库中;
S303、对数据库中的同一用户的数据进行特征提取,所述特征为用户的唯一标识。
5.如权利要求4所述的一种可还原脱敏的数据清洗及交换办法,其特征在于:所述S202中不对称加密算法具体包括以下步骤:
S401、生成一对公开密钥和私有密钥;
S402、在加密前,未加密的脱敏数据称为字符串明文,通过编码将字符串明文转换成字节流明文;
S403、利用加密公式对字节流明文、公开密钥和私有密钥进行计算得到密文。
6.如权利要求5所述的一种可还原脱敏的数据清洗及交换办法,其特征在于:所述加密公式具体包括以下内容:
S501、选择两个相异的大质数记为P和Q;
S502、计算P和Q之积,并用n表示,记为n=P×Q;
S503、定义一个变量S,设S=(P-1)×(Q-1);
S504、选取一个值e1,要求e1与S503的结果值S互质;
S505、再选取一个值e2,使得(e1×e2)=1modS,即(e1×e2)对S取余值为1,此时,(n,e1)为公钥PR,(n,e2)为私钥PU;
S506、假设T代表明文,C代表密文,则:C=Te1mod n,T=Ce2mod n。
7.如权利要求4所述的一种可还原脱敏的数据清洗及交换办法,其特征在于:所述数据规约具体包括以下步骤:寻找数据变换后的脱敏数据数据的有用特征,缩减数据规模,对数据进行降维处理。
8.如权利要求7所述的一种可还原脱敏的数据清洗及交换办法,其特征在于:所述S2具体包括以下步骤:持续对脱敏数据进行监控和审计,及时发现异常并做出响应。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉海昌信息技术有限公司,未经武汉海昌信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910930237.2/1.html,转载请声明来源钻瓜专利网。