[发明专利]文件脱敏方法、装置、电子设备及存储介质在审
申请号: | 202210288220.3 | 申请日: | 2022-03-23 |
公开(公告)号: | CN114547696A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 姜道凯 | 申请(专利权)人: | 平安证券股份有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市福田区福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文件 方法 装置 电子设备 存储 介质 | ||
1.一种文件脱敏方法,其特征在于,所述方法包括:
获取信息系统的历史数据字段,识别所述历史数据字段中的历史敏感字段,并构建所述历史敏感字段的历史脱敏规则;
接收所述信息系统的当前文件,提取所述当前文件的当前数据字段,将所述当前数据字段与所述历史敏感字段进行匹配;
在所述当前数据字段与所述历史敏感字段匹配成功时,利用所述历史脱敏规则对所述当前数据字段的数据进行脱敏,得到第一脱敏数据;
在所述当前数据字段与所述历史敏感字段匹配失败时,构建所述当前数据字段的当前脱敏规则,以执行对所述当前数据字段进行数据脱敏,得到第二脱敏数据;
将所述第一脱敏数据和所述第二脱敏数据进行汇总,得到所述当前文件的脱敏文件。
2.如权利要求1所述的文件脱敏方法,其特征在于,所述识别所述历史数据字段中的历史敏感字段,包括:
获取所述历史数据字段的字段维度,根据所述字段维度,识别所述历史数据字段的字段属性;
判断所述字段属性是否存在于预设的敏感属性表;
若所述字段属性不存在于所述敏感属性表中,则将所述历史数据字段不作为历史敏感字段;
若所述字段属性存在于所述敏感属性表中,则将所述历史数据字段作为历史敏感字段。
3.如权利要求1所述的文件脱敏方法,其特征在于,所述构建所述历史敏感字段的历史脱敏规则,包括:
配置所述历史敏感字段的脱敏脚本,在所述脱敏脚本中定义所述历史敏感字段的脱敏策略;
根据所述脱敏策略,生成所述历史敏感字段的历史脱敏规则。
4.如权利要求1所述的文件脱敏方法,其特征在于,所述提取所述当前文件的当前数据字段,包括:
对所述当前文件进行数据清洗,得到清洗数据;
识别所述清洗数据中的数据对象,将所述数据对象转换为数据字段,得到所述当前文件的当前数据字段。
5.如权利要求1所述的文件脱敏方法,其特征在于,所述对所述当前文件进行数据清洗,得到清洗数据,包括:
对所述当前文件进行数据去重,得到去重数据;
检测所述去重数据中是否存在异常数据,并在所述去重数据存在异常数据时,删除所述异常数据,得到清洗数据。
6.如权利要求1至5中任意一项所述的文件脱敏方法,其特征在于,所述将所述当前数据字段与所述历史敏感字段进行匹配,包括:
将所述当前数据字段转换为当前字段向量,及将所述历史敏感字段转换为历史字段向量;
计算所述当前字段向量和所述历史字段向量的字段相似度;
若所述字段相似度小于预设相似度,则所述当前数据字段与所述历史敏感字段匹配失败;
若所述字段相似度不小于所述预设相似度,则所述当前数据字段与所述历史数据字段匹配成功。
7.如权利要求6所述的文件脱敏方法,其特征在于,所述计算所述当前字段向量和所述历史字段向量的字段相似度,包括:
利用下述公式计算所述当前字段向量和所述历史字段向量的字段相似度:
其中,T(x,y)表示字段似度,xi表示第i个当前字段向量,yi表示第j个历史字段向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安证券股份有限公司,未经平安证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210288220.3/1.html,转载请声明来源钻瓜专利网。