[发明专利]一种违规文件检测方法、装置及设备在审
| 申请号: | 202110585154.1 | 申请日: | 2021-05-27 |
| 公开(公告)号: | CN113407494A | 公开(公告)日: | 2021-09-17 |
| 发明(设计)人: | 刘思瀚;何光宇;徐石成;孟健 | 申请(专利权)人: | 东软集团股份有限公司 |
| 主分类号: | G06F16/14 | 分类号: | G06F16/14;G06F16/16;G06F16/182 |
| 代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 钱湾湾 |
| 地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 违规 文件 检测 方法 装置 设备 | ||
本申请实施例公开了一种违规文件检测方法、装置及设备,通过将待检测文件划分为多个分片文件,利用分片文件和敏感片段之间的相关性确定第一目标分片文件、第一可达敏感片段和第二目标分片文件;利用与第一目标分片文件和第二分片文件相关联的敏感片段的敏感度阈值分别得到第一目标分片文件和第二目标分片文件的敏感度值,将第一目标分片文件和第二目标分片文件的敏感度值相加得到第一求和结果,基于第一求和结果确定待检测文件是否为违规文件。可以基于分片文件实现对待检测文件整体是否是违规文件的检测,能够对分布式存储的文件进行有效地违规检测,使得更为全面地检测违规文件,能够提高违规文件检测的准确性,得到有效并且准确的检测结果。
技术领域
本申请涉及数据处理领域,具体涉及一种违规文件检测方法、装置及设备。
背景技术
违规文件是指包含不符合法律法规的信息的文件。在利用互联网进行数据传输时,通常需要检查传输的文件是否为违规文件,并对确定的违规文件进行对应的删除、屏蔽等处理,防止违规的信息进行传输。
目前,通常采用人工和软件结合的方式检查违规文件,并将对应的文件的特征信息进行储存,利用文件的特征信息实现对其他的违规文件检测。但是,现有的违规文件检测方法不能对部分储存类型的文件进行检测。因此,如何有效地对违规文件进行检测是亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供一种违规文件检测方法、装置及设备,能够通过确定分片文件的敏感值实现对待检测文件的整体是否违规进行有效并且准确地检测。
为解决上述问题,本申请实施例提供的技术方案如下:
一种违规文件检测方法,所述方法包括:
获取待检测文件,将所述待检测文件划分为多个分片文件;
将在所述分片文件中查找到的与至少一个敏感片段的相关性大于第一阈值的分片文件确定为第一目标分片文件;
针对每一所述第一目标分片文件,将与该第一目标分片文件的相关性大于第一阈值的各个敏感片段的敏感度阈值相加,得到该第一目标分片文件的敏感度值;
将在所述敏感片段中查找到的与至少一个所述第一目标分片文件的相关性大于第二阈值的敏感片段确定为第一可达敏感片段;
将在所述分片文件中查找到的与至少一个所述第一可达敏感片段的相关性大于第三阈值的分片文件确定为第二目标分片文件;
针对每一所述第二目标分片文件,将与该第二目标分片文件的相关性大于第三阈值的各个第一可达敏感片段的敏感度阈值相加,得到该第二目标分片文件的敏感度值;
将各个所述第一目标分片文件以及各个所述第二目标分片文件的敏感度值相加得到第一求和结果;
如果所述第一求和结果大于敏感度阈值,确定所述待检测文件为违规文件。
在一种可能的实现方式中,所述方法还包括:
如果在所述敏感片段中未查找到与至少一个所述第一目标分片文件的相关性大于第二阈值的敏感片段,或者,在所述分片文件中未查找到与至少一个所述第一可达敏感片段的相关性大于第三阈值的分片文件,将各个所述第一目标分片文件的敏感度值相加得到第二求和结果;
如果所述第二求和结果大于敏感度阈值,确定所述待检测文件为违规文件。
在一种可能的实现方式中,在将各个所述第一目标分片文件以及各个所述第二目标分片文件的敏感度值相加得到第一求和结果之前,所述方法还包括:
将在所述敏感片段中查找到的与至少一个所述第二目标分片文件的相关性大于第四阈值的敏感片段确定为第二可达敏感片段;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110585154.1/2.html,转载请声明来源钻瓜专利网。





