[发明专利]一种敏感数据快速扫描方法及装置有效
申请号: | 201711403790.8 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108009430B | 公开(公告)日: | 2020-04-10 |
发明(设计)人: | 王小军;喻波;王志海;秦凯;吴宏毅 | 申请(专利权)人: | 北京明朝万达科技股份有限公司 |
主分类号: | G06F21/57 | 分类号: | G06F21/57;G06F9/38 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100097 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 敏感数据 快速 扫描 方法 装置 | ||
本发明公开了一种敏感数据快速扫描方法和装置,该方法包括以下步骤:获取终端的CPU信息,确定多线程扫描的最大有效线程数;对待扫描文件进行解析,得到待扫描的内容信息;根据最大有效线程数和文件大小,确定对待扫描文件进行分块的分块数量;根据最大有效线程数和文件分块数量,确定需要创建的线程数量;根据所述线程数量创建扫描线程,对分块后的文件分块进行扫描,以确定文件包含的敏感数据。通过本发明的技术方案,充分利用了CPU的多核并行处理能力,提高了数据扫描的效率。
技术领域
本发明涉及数据安全领域,具体涉及一种针对数据防泄漏系统终端的快速敏感文件扫描的方法及装置。
背景技术
随着信息科学与互联网技术的飞跃发展,数据安全问题愈演愈烈,网络与信息安全已获得到前所未有的关注。数据防泄漏系统作为数据安全的终端防护手段,得到了广泛的关注和使用,其中的敏感文件扫描模块作为该系统的重要组成之一,对整个系统的使用和发展也起着关键性的作用。对此,申请人提出了一种针对数据防泄漏系统终端,快速扫描其敏感文件的方法。
目前,数据防泄漏系统构建有敏感文件的扫描组件,对终端的数据进行内容的解析,转码和扫描。终端的数据以不同的格式保存,需要对不同类型的文件进行特定的解析,获取相关的文件内容信息,之后再把获取到的内容转换成特定的编码格式,保存到临时文件,扫描时加载临时文件,检查相关的敏感信息,最后汇总输出相关的敏感信息结果。
现有的敏感文件扫描过程中涉及到了临时文件的存取,增加了处理过程中的IO压力,另外在扫描过程中,通常都是对整个文件内容直接进行遍历扫描,这样的单线程处理不能充分的利用多核CPU的效能,无法达到更优的扫描速率。
发明内容
为解决上述技术问题,本发明提供了一种敏感数据快速扫描方法,该方法包括以下步骤:
获取终端的CPU信息,确定多线程扫描的最大有效线程数;
对待扫描文件进行解析,得到待扫描的内容信息;
根据最大有效线程数和文件大小,确定对待扫描文件内容信息进行分块的分块数量;
根据最大有效线程数和文件分块数量,确定需要创建的线程数量;
根据所述线程数量创建扫描线程,对分块后的文件分块进行扫描,以确定文件包含的敏感数据。
根据本发明的方法,优选的,所述CPU为多核CPU,所述最大有效线程数等于所述CPU的内核数量。
根据本发明的方法,优选的,在对文件分块进行扫描之前,需要加载扫描的相关配置信息,包括敏感信息关键字、匹配规则信息、文件敏感度信息。
根据本发明的方法,优选的,所述文件分块的数量不大于所述最大有效线程数。
根据本发明的方法,优选的,所述对待扫描文件进行解析,得到待扫描的内容信息包括:
对不同类型的文件进行解析,得到待扫描的内容信息;
对解析得到的文件内容信息进行编码转换,以得到指定编码的内容信息。
根据本发明的方法,优选的,所述文件分块的数量大于1,各文件分块之间存在交集。
为解决上述技术问题,本发明提供了一种敏感数据快速扫描装置,该装置包括:
最大有效线程确定模块,获取终端的CPU信息,确定多线程扫描的最大有效线程数;
文件内容解析模块,对待扫描文件进行解析,得到待扫描的内容信息;
文件分块数量确定模块,根据最大有效线程数和文件大小,确定对待扫描文件内容信息进行分块的分块数量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明朝万达科技股份有限公司,未经北京明朝万达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711403790.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种建筑工地用高亮度照明控制器
- 下一篇:一种延长广玉兰花期的处理方法