[发明专利]一种网页篡改检测方法、检测系统及相关设备在审
申请号: | 201910075452.9 | 申请日: | 2019-01-25 |
公开(公告)号: | CN111488452A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 黄志伟;杨荣海 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 篡改 检测 方法 系统 相关 设备 | ||
本发明实施例提供了一种网页篡改检测方法、检测系统及相关设备,用于提升网页篡改的检出率。本发明实施例方法包括:提取待检测网页中的各个独立文本,并计算各个独立文本的语义特征向量;将所有独立文本对应的语义特征向量输入第一注意力模型,确定各个独立文本对应的权值及各个独立文本对应的隐层特征向量;将所有独立文本对应的隐层特征向量乘以对应的权值之后做加法运算,得到待检测网页的网页特征向量;将网页特征向量输入预设的网页分类模型中识别待检测网页中是否存在篡改。
技术领域
本发明涉及网络安全检测领域,尤其涉及一种网页篡改检测方法、检测系统及相关设备。
背景技术
利用网页中的文本来判断网页是否被篡改是现有网页篡改检测中的主流技术。以网页文本为对象进行过滤、检测、建模,能够发现攻击者在目标网页中插入一些非法的文本信息,从而检测出篡改网页。
目前针对网页篡改的检测主要是基于关键词匹配,根据命中词语的词频信息,判定网页是否被篡改。现有方案主要是利用关键词的词频来检测网页是否被篡改,然而攻击者可能在网页中某个不起眼的位置嵌入一个非法文本,也可能在网页的头部或尾部注入非法文本与非法链接,这种篡改方式的多变性使得传统方法难以提取真正有效的统计信息和特征,从而使算法出现大量的漏判。
发明内容
本发明实施例提供了一种网页篡改检测方法、检测系统及相关设备,用于提升网页篡改的检出率。
本发明实施例第一方面提供了一种网页篡改检测方法,其包括:
提取待检测网页中的各个独立文本,并计算各个独立文本的语义特征向量
将所有独立文本对应的语义特征向量输入第一注意力模型,确定各个独立文本对应的权值及各个独立文本对应的隐层特征向量;
将所有独立文本对应的隐层特征向量乘以对应的权值之后做加法运算,得到所述待检测网页的网页特征向量;
将所述网页特征向量输入预设的网页分类模型中识别所述待检测网页中是否存在篡改。
可选的,作为一种可能的实施方式,本发明实施例中,所述计算各个独立文本的语义特征向量,包括:
对各个独立文本进行分词处理,一个独立文本的所有分词组成一个对应的分词序列;
基于预设的词向量模型生成所有分词的词向量;
根据分词序列中的各个分词的词向量计算各个独立文本的语义特征向量。
可选的,作为一种可能的实施方式,本发明实施例中,所述根据分词序列中的各个分词的词向量计算各个独立文本的语义特征向量,包括:
进行语义特征向量运算,所述语义特征向量运算包括:将一个分词序列中的所有分词对应的词向量输入第二注意力模型,得到各个分词对应的权值及各个分词对应的隐层特征向量,将分词序列中的所有分词对应的隐层特征向量分别乘以对应的权值之后做加法运算,得到分词序列对应的独立文本的语义特征向量;
重复所述语义特征向量运算,得到各个独立文本的语义特征向量。
可选的,作为一种可能的实施方式,本发明实施例中,所述提取待检测网页中的各个独立文本,包括:
根据HTML源文件中的标签将所述待检测网页剪切为不同的独立文本,两个不同的标签之间的文本作为一个或多个独立文本。
可选的,作为一种可能的实施方式,本发明实施例中,所述网页分类模型包括:
逻辑回归模型、多层感知机模型、多层全连接神经网络模型。
本发明实施例第二方面提供了一种检测系统,运用于网页篡改检测,其包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910075452.9/2.html,转载请声明来源钻瓜专利网。