[发明专利]敏感数据的扫描方法、装置、电子设备及介质在审
申请号: | 202310904575.5 | 申请日: | 2023-07-24 |
公开(公告)号: | CN116663040A | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 张作宸;卢伟;李高丽 | 申请(专利权)人: | 天津卓朗昆仑云软件技术有限公司 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06F16/14 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 董艳芳 |
地址: | 300450 天津市滨海新区天津生态城动漫中路482*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 敏感数据 扫描 方法 装置 电子设备 介质 | ||
1.一种敏感数据的扫描方法,其特征在于,包括:
接收数据扫描请求,并基于所述数据扫描请求确定待扫描文件;
提取所述待扫描文件的文件内容;
将所述文件内容与预先建立的敏感信息规则库进行匹配,判断所述文件内容中是否有敏感数据。
2.根据权利要求1所述的方法,其特征在于,提取所述待扫描文件的文件内容,包括:
确定所述待扫描文件的文件格式;
基于所述文件格式确定文件解析器;
基于所述文件解析器提取所述待扫描文件的文件内容。
3.根据权利要求1所述的方法,其特征在于,将所述文件内容与预先建立的敏感信息规则库进行匹配,判断所述文件内容中是否有敏感数据,包括:
基于Hyperscan正则表达式匹配引擎,将所述文件内容与所述敏感信息规则库进行匹配,得到匹配结果;
基于所述匹配结果判断所述文件内容中是否有敏感数据。
4.根据权利要求1所述的方法,其特征在于,将所述文件内容与预先建立的敏感信息规则库进行匹配,判断所述文件内容中是否有敏感数据,包括:
计算所述文件内容与所述敏感信息规则库中的敏感关键词的相似度;
如果所述相似度超过预设值,则确定所述文件内容中有敏感数据。
5.根据权利要求1所述的方法,其特征在于,将所述文件内容与预先建立的敏感信息规则库进行匹配之前,所述方法还包括:
对所述文件内容进行哈希处理,得到所述文件内容的哈希值;
如果所述文件内容的哈希值与预先计算得到的哈希表中的哈希值相匹配,则将所述文件内容与预先建立的敏感信息规则库进行匹配;
如果所述文件内容的哈希值与预先计算得到的哈希表中的哈希值不匹配,则将所述文件内容进行过滤。
6.根据权利要求1所述的方法,其特征在于,判断所述文件内容中是否有敏感数据之后,所述方法还包括:
获取所述文件内容与所述敏感信息规则库的匹配结果,记录所述匹配结果,并基于所述匹配结果生成结果报告。
7.一种敏感数据的扫描装置,其特征在于,包括:
数据获取模块,用于接收数据扫描请求,并基于所述数据扫描请求确定待扫描文件;
文件解析模块,用于提取所述待扫描文件的文件内容;
数据匹配模块,用于将所述文件内容与预先建立的敏感信息规则库进行匹配,判断所述文件内容中是否有敏感数据。
8.根据权利要求7所述的装置,其特征在于,所述数据匹配模块还用于:
基于Hyperscan正则表达式匹配引擎,将所述文件内容与所述敏感信息规则库进行匹配,得到匹配结果;
基于所述匹配结果判断所述文件内容中是否有敏感数据。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至6任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1至6任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津卓朗昆仑云软件技术有限公司,未经天津卓朗昆仑云软件技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310904575.5/1.html,转载请声明来源钻瓜专利网。