[发明专利]基于布隆过滤器过滤数据库数据的数据防泄漏方法及设备在审
申请号: | 201711191366.1 | 申请日: | 2017-11-24 |
公开(公告)号: | CN107944294A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 刘立军;苏立权;汪楫人 | 申请(专利权)人: | 云易天成(北京)安全科技开发有限公司 |
主分类号: | G06F21/62 | 分类号: | G06F21/62 |
代理公司: | 北京酷爱智慧知识产权代理有限公司11514 | 代理人: | 安娜 |
地址: | 100101 北京市朝阳区大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 过滤器 过滤 数据库 数据 泄漏 方法 设备 | ||
技术领域
本发明涉及人工智能领域,尤其涉及人机对话系统领域。
背景技术
现有技术中,对于数据中的敏感信息需要进行防泄漏处理,尤其是在数据传输过程中,常常因为对数据的防范措施不得当,使得造成严重的损失。
在现有的对于数据的防泄漏方法中,当有数据通过网络或文件进行传输时,需要对传输数据进行处理,检验传输的数据是否是敏感信息,但由于传输数据量过大,这样就导致数据的存储空间大,且数据量过大,影响数据的处理效率,在判断传输数据是否属于敏感信息时,效率低下。
发明内容
针对上述技术问题,本发明提供一种基于布隆过滤器过滤数据库数据的数据防泄漏方法及设备,通过本发明的方法生成的指纹信息,只占常规哈希算法指纹数据的四分之一,从而极大的解决了海量数据库的指纹存储。同时由于利用了布隆过滤器的位操作的特性,极大的提高了查询速度。
第一方面,本发明提供一种基于布隆过滤器过滤数据库数据的数据防泄漏方法,包括:
步骤S1,当有数据通过网络或文件进行传输时,截获传输数据,对所述传输数据进行分段解析,得到分段后的传输数据;
步骤S2,根据所述传输数据总数据量和预先设定的允许误差率,通过布隆过滤器计算得到需要生成的数据指纹个数,所述布隆过滤器是基于用户指定的数据库预先建立得到的;
步骤S3,根据所述需要生成的数据指纹个数,对所述分段后的传输数据进行哈希计算,得到数据指纹;
步骤S4,根据所述数据指纹,通过所述布隆过滤器进行数据指纹匹配,实现数据防泄漏。
本发明提供的基于布隆过滤器过滤数据库数据的数据防泄漏方法,其技术方案为:当有数据通过网络或文件进行传输时,截获传输数据,对所述传输数据进行分段解析,得到分段后的传输数据;根据所述传输数据总数据量和预先设定的允许误差率,通过布隆过滤器计算得到需要生成的数据指纹个数,所述布隆过滤器是基于用户指定的数据库预先建立得到的;根据所述需要生成的数据指纹个数,对所述分段后的传输数据进行哈希计算,得到数据指纹;根据所述数据指纹,通过所述布隆过滤器进行数据指纹匹配,实现数据防泄漏。
本发明的基于布隆过滤器过滤数据库数据的数据防泄漏方法,通过本发明的方法生成的指纹信息,只占常规哈希算法指纹数据的四分之一,从而极大的解决了海量数据库的指纹存储。同时由于利用了布隆过滤器的位操作的特性,极大的提高了查询速度。
进一步地,所述布隆滤波器的建立,具体为:
通过爬虫工具对用户指定的数据库进行数据爬取,得到敏感数据;
对所述敏感数据进行哈希计算,生成数据指纹并存储到本地数据库,得到布隆过滤器。
进一步地,所述步骤S2,具体为:
根据所述传输数据的总数据量和预先设定的误差率,通过所述预先建立的布隆滤波器,计算得到所述布隆过滤器需要的bit数大小;
根据所述布隆过滤器需要的bit数大小,结合所述传输数据的元素总个数,计算得到hash函数的个数,进而得到需要生成的数据指纹个数,所述需要生成的数据指纹个数与所述得到的hash函数的个数一致。
进一步地,所述步骤S1中,对所述传输数据进行分段解析,得到分段后的传输数据,具体为:
将所述传输数据解析成与所述本地数据库中的敏感信息格式相匹配的多个数据段。
进一步地,所述步骤S1中,将所述传输数据解析成与所述本地数据库中的敏感信息格式相匹配的多个数据段,具体为:
根据特殊分隔符对所述传输数据拆分成多个数据段;
对所述拆分后的数据段进行去格式化处理,去除所述拆分后的数据段前后的特殊字符,得到多个数据段,所述多个数据段的格式与所述本地数据库中的敏感信息格式一致。
进一步地,所述数据指纹的格式为64位无符号长整型数据。
第二方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
步骤S1,当有数据通过网络或文件进行传输时,截获传输数据,对所述传输数据进行分段解析,得到分段后的传输数据;
步骤S2,根据所述传输数据总数据量和预先设定的允许误差率,通过布隆过滤器计算得到需要生成的数据指纹个数,所述布隆过滤器是基于用户指定的数据库预先建立得到的;
步骤S3,根据所述需要生成的数据指纹个数,对所述分段后的传输数据进行哈希计算,得到数据指纹;
步骤S4,根据所述数据指纹,通过所述布隆过滤器进行数据指纹匹配,实现数据防泄漏。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云易天成(北京)安全科技开发有限公司,未经云易天成(北京)安全科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711191366.1/2.html,转载请声明来源钻瓜专利网。