[发明专利]一种网页篡改检测方法、检测系统及相关设备在审

申请号：	201910075452.9	申请日：	2019-01-25
公开（公告）号：	CN111488452A	公开（公告）日：	2020-08-04
发明（设计）人：	黄志伟;杨荣海	申请（专利权）人：	深信服科技股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	王仲凯
地址：	518055 广东省深圳市南***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页篡改检测方法系统相关设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供了一种网页篡改检测方法、检测系统及相关设备，用于提升网页篡改的检出率。本发明实施例方法包括：提取待检测网页中的各个独立文本，并计算各个独立文本的语义特征向量；将所有独立文本对应的语义特征向量输入第一注意力模型，确定各个独立文本对应的权值及各个独立文本对应的隐层特征向量；将所有独立文本对应的隐层特征向量乘以对应的权值之后做加法运算，得到待检测网页的网页特征向量；将网页特征向量输入预设的网页分类模型中识别待检测网页中是否存在篡改。

技术领域

本发明涉及网络安全检测领域，尤其涉及一种网页篡改检测方法、检测系统及相关设备。

背景技术

利用网页中的文本来判断网页是否被篡改是现有网页篡改检测中的主流技术。以网页文本为对象进行过滤、检测、建模，能够发现攻击者在目标网页中插入一些非法的文本信息，从而检测出篡改网页。

目前针对网页篡改的检测主要是基于关键词匹配，根据命中词语的词频信息，判定网页是否被篡改。现有方案主要是利用关键词的词频来检测网页是否被篡改，然而攻击者可能在网页中某个不起眼的位置嵌入一个非法文本，也可能在网页的头部或尾部注入非法文本与非法链接，这种篡改方式的多变性使得传统方法难以提取真正有效的统计信息和特征，从而使算法出现大量的漏判。

发明内容

本发明实施例提供了一种网页篡改检测方法、检测系统及相关设备，用于提升网页篡改的检出率。

本发明实施例第一方面提供了一种网页篡改检测方法，其包括：

提取待检测网页中的各个独立文本，并计算各个独立文本的语义特征向量

将所有独立文本对应的语义特征向量输入第一注意力模型，确定各个独立文本对应的权值及各个独立文本对应的隐层特征向量；

将所有独立文本对应的隐层特征向量乘以对应的权值之后做加法运算，得到所述待检测网页的网页特征向量；

将所述网页特征向量输入预设的网页分类模型中识别所述待检测网页中是否存在篡改。

可选的，作为一种可能的实施方式，本发明实施例中，所述计算各个独立文本的语义特征向量，包括：

对各个独立文本进行分词处理，一个独立文本的所有分词组成一个对应的分词序列；

基于预设的词向量模型生成所有分词的词向量；

根据分词序列中的各个分词的词向量计算各个独立文本的语义特征向量。

可选的，作为一种可能的实施方式，本发明实施例中，所述根据分词序列中的各个分词的词向量计算各个独立文本的语义特征向量，包括：