[发明专利]网站页面的检测方法、装置、电子设备及介质有效
申请号: | 202010015894.7 | 申请日: | 2020-01-08 |
公开(公告)号: | CN110825976B | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 董超;蒋希敏;刘雷;赵玉元 | 申请(专利权)人: | 浙江乾冠信息安全研究院有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955;G06F21/56;G06K9/62;H04L29/06 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 郑思思 |
地址: | 310015 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 页面 检测 方法 装置 电子设备 介质 | ||
本发明公开了一种网站页面的检测方法,涉及通信技术领域,用于解决由于非法网页的检测难度大而导致工作人员负担重的问题,该方法具体包括以下步骤,获取待检测页面;基于待检测页面得到对应的真实URL,并记为true‑url;对true‑url配置Referer的请求头,并得到r‑url;通过模拟浏览器访问r‑url,得到跳转后的URL并记为A‑url;访问true‑url,得到跳转后的URL并记为B‑url;判断A‑url和B‑url是否匹配,若匹配失败,则标记待检测页面,若匹配成功,则执行补集贝叶斯模型检测。该方法通过自动检测以代替人工检测,从而降低工作人员的压力。本发明还公开了一种网站页面的检测装置、电子设备及计算机可读介质。
技术领域
本发明涉及通信技术领域,尤其涉及一种网站页面的检测方法、装置、电子设备及介质。
背景技术
伴随着互联网技术的不断发展,网站为用户提供了丰富多彩的内容,如:新闻、公告、论坛等。但同样是由于技术的发展,网站也容易受到黑客入侵,从而导致经常发生网站页面被篡改的事件。
其中,非法页面包括被劫持的页面。具体地,当页面被劫持时,用户使用HTTP请求该页面的时候,会出现有不属于网站范畴的广告,或者是跳转到某个不属于网站范畴的页面。
针对于该非法页面,常见的检测方法有外部检测。但是由于网站中被劫持的页面往往是几个月前甚至几年前的页面,或黑客添加的页面在该网站中搜索不到等原因,从而会提高工作难度,导致工作人员的负担加重。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种网站页面的检测方法,具有的减轻工作人员负担优点。
本发明的目的之一采用如下技术方案实现:
一种网站页面的检测方法,包括以下步骤:
获取待检测页面;
基于所述待检测页面得到对应的真实URL,并记为true-url;
对所述true-url配置Referer的请求头,并得到r-url;
通过模拟浏览器访问所述r-url,得到跳转后的URL并记为A-url;
访问所述true-url,得到跳转后的URL并记为B-url;
判断所述A-url和所述B-url是否匹配,若匹配失败,则标记所述待检测页面,若匹配成功,则执行补集贝叶斯模型检测;
所述补集贝叶斯模型检测包括以下步骤:
获取所述待检测页面的源码信息;
获取分词库,所述分词库包括基础词和非法词;
基于所述分词库提取代表所述源码信息的源码关键词、与所述源码关键词的对应的权重;
基于补集贝叶斯模型、源码关键词及对应的权重得到所述待检测页面为非法页面的非法概率,判断所述非法概率是否大于预设值,若是,则标记所述待检测页面,其中所述补集贝叶斯公式为,,j表示每个样本,i表示特征,就是特征值;表示一个特征i下,所有标签类别不等于c值的样本的特征取值之和;表示所有特征下,所有标签类别不等于c值的样本的特征取值之和;表示平滑系数。
进一步地,获取待检测页面,包括以下步骤:
获取待检测域名和关键词;
基于所述待检测域名和所述关键词进行搜索引擎搜索,并得到所述待检测页面。
进一步地,基于所述待检测页面得到对应的真实URL,包括以下步骤:
获取与所述待检测页面对应的搜索引擎;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江乾冠信息安全研究院有限公司,未经浙江乾冠信息安全研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010015894.7/2.html,转载请声明来源钻瓜专利网。