[发明专利]日志安全风险的监测方法、装置、电子设备及介质有效
申请号: | 202110691738.7 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113343699B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 赵乐 | 申请(专利权)人: | 湖北华中电力科技开发有限责任公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06F18/22;G06F40/216;G06F16/35 |
代理公司: | 重庆创新专利商标代理有限公司 50125 | 代理人: | 李智祥 |
地址: | 430074 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 日志 安全 风险 监测 方法 装置 电子设备 介质 | ||
本申请公开了一种日志安全风险的监测方法、装置、电子设备及介质。本申请中,可以调用SDK接口获取原文日志信息;将原文日志信息输入至预设的日志识别模型,确定原文日志信息中是否包含候选敏感字段;若确定包含候选敏感字段,通过词相似度矩阵确定候选敏感字段是否为真正敏感字段;若确定候选敏感字段为真正敏感字段,确定原文日志存在安全风险。通过应用本申请的技术方案,可以在日志信息发布前,首先根据日志识别模型提取日志信息中包含的候选敏感字段,并将该候选敏感字段根据词相似度矩阵输出的结果确定是否为真正的敏感字段,如是。则避免对该日志信息的发布,进而降低了风险信息的散布。
技术领域
本申请中涉及数据处理技术,尤其是一种日志安全风险的监测方法、装置、电子设备及介质。
背景技术
由于通信时代和社会的兴起,业务平台已经随着越来越多的用户使用而不断发展。
目前公司对科技系统的输入日志有严格的敏感信息管理要求,不允许在日志中出现手机号、客户姓名、身份证号、银行卡号等敏感日志。但是现存的一些老系统或新搭建的系统,代码量非常多,而且某些功能是需要打开日志进行观察运行情况的,存在输出敏感日志的情况。针对这种情况,安全部门会定期扫描生产日志,如果发现某个应用输出敏感日志,则会下发整改通知,要求该部门分组进行整改。
然而,相关技术中存在的方式无法提前杜绝敏感词在日志中的出现。
发明内容
本申请实施例提供一种日志安全风险的监测方法、装置、电子设备及介质,从而解决相关技术中存在的日志发布中无法完全杜绝敏感词出现的问题。
其中,根据本申请实施例的一个方面,提供的一种日志安全风险的监测方法,其特征在于,包括:
调用SDK接口获取原文日志信息;
将所述原文日志信息输入至预设的日志识别模型,确定所述原文日志信息中是否包含候选敏感字段;
若确定包含所述候选敏感字段,通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段;
若确定所述候选敏感字段为真正敏感字段,确定所述原文日志存在安全风险。
可选地,在基于本申请上述方法的另一个实施例中,在所述调用SDK接口获取原文日志信息之后,还包括:
识别所述原文日志信包含的目标分词,其中所述目标分词对应于停用词以及指定词性的其中至少一种;
对所述原文日志信息进行目标分词消除,并利用聚类运算对所述消除目标分词后的原文日志信息进行噪音词去除,得到预处理原文日志信息。
可选地,在基于本申请上述方法的另一个实施例中,所述确定所述原文日志信息中是否包含候选敏感字段,包括:
利用CRF分词模型,提取所述原文日志信息中的目标候选词集;
利用概率图模型,确定各个所述目标候选词集对应的类型概率值;
将类型概率值超过第一预设阈值的目标候选词作为待检测候选词集,并检测目标类型对应的待检测候选词集中,是否包含候选敏感字段。
可选地,在基于本申请上述方法的另一个实施例中,所述通过词相似度矩阵确定所述候选敏感字段是否为真正敏感字段,包括:
根据预先构建的词相似度矩阵,计算所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值;
若确定所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值超过第二预设阈值时,确定所述候选敏感字段为真正敏感字段。
可选地,在基于本申请上述方法的另一个实施例中,通过如下公式计算所述候选敏感字段与真正敏感字段之间词向量夹角的余弦值:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北华中电力科技开发有限责任公司,未经湖北华中电力科技开发有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110691738.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种支撑剂破碎率的测定装置
- 下一篇:一种测试数据生成方法和装置