[发明专利]一种基于深度学习的网站图片篡改检测方法有效

专利信息
申请号: 201911318110.1 申请日: 2019-12-19
公开(公告)号: CN111191695B 公开(公告)日: 2023-05-23
发明(设计)人: 范如;范渊 申请(专利权)人: 杭州安恒信息技术股份有限公司
主分类号: G06F18/22 分类号: G06F18/22;G06N3/0464;G06N3/08;G06F40/289;G06F40/30;G06F18/214
代理公司: 杭州赛科专利代理事务所(普通合伙) 33230 代理人: 郭薇;冯年群
地址: 310051 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 学习 网站 图片 篡改 检测 方法
【说明书】:

发明涉及一种基于深度学习的网站图片篡改检测方法,收集带有文本的样本图片,预处理后建立训练集,训练对应的网络模型,进一步训练语义相近度检测模型并构建敏感词库,爬取到待测网站图片并预处理后,通过网络模型得到网站图片中的文本内容结果,分词后由语义相近度检测模型计算文本内容结果与敏感词库间的语义相似度,基于相似度进行敏感内容及网站图片被篡改的判定。本发明提高文本块识别精度,文本提取准确,模型小,收敛速度快,性能好,对图片中的文本进行语义识别,能准确地检测网页图片中的敏感言论,快速高效地识别网站是否被黑客入侵,并及时告警,对于维护网站安全起到重要作用,对于不良非法信息的传播能及时地阻断。

技术领域

本发明涉及一般的图像数据处理或产生的技术领域,特别涉及一种基于深度学习的网站图片篡改检测方法。

背景技术

随着网络的加速发展,对于网络生态的监测、监管的重要性日益上升。黑客们无时无刻不在寻找机会攻入特定的网站、对其进行系列操作以达到其犯罪目的;更有甚者,专门寻找重要的政府企业的网站漏洞,采用植入后门等手段,控制网站服务器,入侵之后篡改页面、通过在图片上增加文本内容的方式发布各种非法言论,基于其活动存在周期性,每周都要攻击两至三个网站,网页被篡改后,如果没有及时检测发现,会对政府企业网站造成不良影响,被监管部门封杀,更重要的是会使不良信息肆意传播,不利于舆情管理。

基于图片中植入文字,现有技术中主要采用单字符提取和文本行提取的方式进行检测。单字符提取是基于字符的识别方法,是一种碎片式识别方法,依赖于以图片分割技术对图片中的文本进行分割,计算字符候选区域,进而以字符训练分类器,并利用算法将字符组合成文字,从而完成识别;文本行提取是指从图片中尽可能地找出文字所在的区域,通过目标检测器,如SSD,YOLO、DenseBox等预测候选的边界框,以语义分割为基础、分割映射,处理提取成最终的文本。

对于单字符提取的检测方式来说,其最小操作单位是字符,通过分割或给候选区域评分的方法分离出单个字符,然后以训练好的模型对字符进行分类,然而,在更多的场景下,字符在图片上的排列是繁琐而复杂的,对字符进行分割异常困难,并且强制分割会破坏其物理结构,此外字符的分割没有考虑其前后其他字符,在进行字符识别时的识别精度大打折扣。

对于文本行提取的检测方式来说,相较于常规物体,文本行的长宽比例变化范围很大且整体存在方向,常规物体边框BBox的四元组描述方式提取的信息并不充足,比如部分艺术字采用了弯曲的文本行,再比如还有更多种变化方式的手写字体,这些特征使得直接通过文本行提取文字的效果并不理想。

发明内容

本发明解决了现有技术中存在的问题,提供了一种优化的基于深度学习的网站图片篡改检测方法。

本发明所采用的技术方案是,一种基于深度学习的网站图片篡改检测方法,所述方法包括以下步骤:

步骤1:收集样本图片,所述样本图样中包括文本;

步骤2:对样本图片进行预处理,建立训练集,并将训练集输入对应的网络模型进行模型训练;

步骤3:训练语义相近度检测模型;构建敏感词库;

步骤4:爬取待测网站图片,以与步骤2同样的方式预处理待测网站图片,输入步骤2训练后的网络模型,输出网站图片中的文本内容结果;

步骤5:对所述文本内容结果进行分词,输入步骤3训练的语义相近度检测模型,计算文本内容结果与敏感词库间的语义相似度;

步骤6:若相似度高于阈值,则存在敏感内容,网站图片被篡改。

优选地,所述步骤2中,网络模型包括图片文本区域检测网络和图片文本字符提取检测网络。

优选地,对应图片文本区域检测网络的训练集建立包括以下步骤:

步骤A.1:对所有的样本图片进行归一化处理,处理至统一尺寸;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911318110.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top