[发明专利]一种网页篡改行为的检测方法、装置及相关组件在审

申请号：	201910074366.6	申请日：	2019-01-25
公开（公告）号：	CN111488622A	公开（公告）日：	2020-08-04
发明（设计）人：	杨荣海;何嘉伟	申请（专利权）人：	深信服科技股份有限公司
主分类号：	G06F21/64	分类号：	G06F21/64;G06F40/30;G06F16/958;G06F16/955
代理公司：	深圳市深佳知识产权代理事务所(普通合伙) 44285	代理人：	王仲凯
地址：	518055 广东省深圳市南***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页篡改行为检测方法装置相关组件
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种网页篡改行为的检测方法，所述检测方法包括根据所述检测指令确定目标网页，并匹配所述目标网页中的目标类型关键词；确定所述目标类型关键词在所述目标网页中对应的目标文本，并利用目标语言模型生成所述目标文本对应的语义向量；其中，所述目标语言模型通过将在源领域训练后的语言模型迁移得到；根据所述语义向量对所述目标网页执行网页篡改行为检测操作。因此本申请能够降低机器学习过程中对于样本数量的依赖，在训练样本数量较少的情况下检测网页篡改行为。本申请还公开了一种网页篡改行为的检测装置、一种计算机可读存储介质及一种电子设备，具有以上有益效果。

技术领域

本发明涉及网络安全技术领域，特别涉及一种网页篡改行为的检测方法、装置、一种计算机可读存储介质及一种电子设备。

背景技术

伴随着网络技术的日益发展，网页篡改(Webpage Defacement)已经成为影响客户网站正常业务的主要黑客攻击行为。网页篡改指黑客入侵合法网站，在该网站中插入博彩、色情等非法的文本、图像及恶意链接等行为。网页篡改是黑帽搜索引擎优化的一项重要技术，能够提升目的网站在搜索引擎中的排名，从而增加访问量，同时网页篡改也会被用来宣扬黑客的主张或者炫耀黑客的技术。

现有的主流网页篡改检测方法都是利用网页的文本信息来做出判断，针对网页文本，使用数据挖掘、统计学习模型或者深度学习模型来发现网页中被插入的非法文本。但是，上述检测网页篡改行为的方法需要大量的样本数据作为机器学习的支持，在训练样本数量较少的情况下检测效果并不理想。

因此，如何降低机器学习过程中对于样本数量的依赖，在训练样本数量较少的情况下检测网页篡改行为是本领域技术人员目前需要解决的技术问题。

发明内容

本申请的目的是提供一种网页篡改行为的检测方法、装置、一种计算机可读存储介质及一种电子设备，能够降低机器学习过程中对于样本数量的依赖，在训练样本数量较少的情况下检测网页篡改行为。

为解决上述技术问题，本申请提供一种网页篡改行为的检测方法，该检测方法包括：

根据检测指令确定目标网页，并匹配目标网页中的目标类型关键词；

确定目标类型关键词在目标网页中对应的目标文本，并利用迁移学习后的目标语言模型生成目标文本对应的语义向量；

根据语义向量对目标网页执行网页篡改行为检测操作。

可选的，利用迁移学习后的目标语言模型生成目标文本对应的语义向量包括：

提取目标文本的词向量，并将所有词向量输入迁移学习后的目标语言模型生成语义向量。

可选的，匹配目标网页中的目标类型关键词包括：

利用关键词表对目标网页执行关键词匹配操作得到目标类型关键词。