[发明专利]一种非法网站检测方法、装置、计算机设备及存储介质在审
| 申请号: | 202111016167.3 | 申请日: | 2021-08-31 |
| 公开(公告)号: | CN113783858A | 公开(公告)日: | 2021-12-10 |
| 发明(设计)人: | 吴凯丽;杨熠;张秉彬 | 申请(专利权)人: | 上海微问家信息技术有限公司 |
| 主分类号: | H04L29/06 | 分类号: | H04L29/06;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 成都顶峰专利事务所(普通合伙) 51224 | 代理人: | 王霞 |
| 地址: | 200000 上海市自由贸*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 非法 网站 检测 方法 装置 计算机 设备 存储 介质 | ||
1.一种非法网站检测方法,其特征在于,包括:
获取目标网址,并根据目标网址访问目标网站;
提取目标网站的HTML信息及图像信息;
对HTML信息进行特征字符提取,获得特征文本信息;
将特征文本信息导入预置的文本神经网络模型,对特征文本信息进行非法概率判定,输出第一概率值;
在第一概率值大于设定阈值时,判定目标网站为非法网站,否则,对图像信息进行图像特征提取,获得图像特征信息;
将图像特征信息导入预置的图像神经网络模型,对图像特征信息进行非法概率判定,输出第二概率值;
在第二概率值大于设定阈值时,判定目标网站为非法网站,否则判定目标网站为正常网站。
2.根据权利要求1所述的一种非法网站检测方法,其特征在于,所述文本神经网络模型采用训练后的ELECTRA预训练模型,其训练过程包括:
获取若干非正常样本网站的HTML信息标记为1,以及对应数量的正常样本网站的HTML信息标记为0,组成第一原始训练数据集;
利用正则表达式过滤掉第一原始训练数据集HTML信息中的非中文字符;
将过滤后的字符按设定的字符-数字对应关系一一对应转换为相应的数字,使原始训练数据集转换成第一处理后训练数据集;
将第一处理后训练数据集输入ELECTRA预训练模型进行训练,直至ELECTRA预训练模型的损失函数收敛。
3.根据权利要求2所述的一种非法网站检测方法,其特征在于,所述对HTML信息进行特征字符提取,获得特征文本信息,包括:
利用正则表达式过滤掉HTML信息中的非中文字符;
将过滤后的字符按设定的字符-数字对应关系一一对应转换为相应的数字,形成特征文本信息。
4.根据权利要求2所述的一种非法网站检测方法,其特征在于,在文本神经网络模型对特征文本信息进行非法概率判定时,所述方法还包括:采用Sigmoid函数对文本神经网络模型的输出结果进行数据转换,得到第一概率值,使第一概率值在0到1之间。
5.根据权利要求1所述的一种非法网站检测方法,其特征在于,所述图像神经网络模型采用训练后的MobileNetV3模型,其训练过程包括:
获取若干非正常样本网站的图像信息标记为1,以及对应数量的正常样本网站的图像信息标记为0,组成第二原始训练数据集;
对第二原始训练数据集的图像信息进行图像特征提取,使提取的图像特征信息及相应标记组成第二处理后训练数据集;
将第二处理后训练数据集输入MobileNetV3模型进行训练,直至MobileNetV3模型的损失函数收敛。
6.根据权利要求5所述的一种非法网站检测方法,其特征在于,在图像神经网络模型对目标网站对应图像特征信息进行非法概率判定时,所述方法还包括:采用Sigmoid函数对在图像神经网络模型的输出结果进行数据转换,得到第二概率值,使第二概率值在0到1之间。
7.根据权利要求4或6所述的一种非法网站检测方法,其特征在于,所述设定阈值为0.5。
8.一种非法网站检测装置,其特征在于,包括:
获取单元,用于获取目标网址,并根据目标网址访问目标网站;
提取单元,用于提取目标网站的HTML信息及图像信息,并对HTML信息进行特征字符提取,获得特征文本信息;
第一模型单元,用于将特征文本信息导入预置的文本神经网络模型,对特征文本信息进行非法概率判定,输出第一概率值;
第一判定单元,用于在第一概率值大于设定阈值时,判定目标网站为非法网站,否则,对图像信息进行图像特征提取,获得图像特征信息;
第二模型单元,用于将图像特征信息导入预置的图像神经网络模型,对图像特征信息进行非法概率判定,输出第二概率值;
第二判定单元,用于在第二概率值大于设定阈值时,判定目标网站为非法网站,否则判定目标网站为正常网站。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海微问家信息技术有限公司,未经上海微问家信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111016167.3/1.html,转载请声明来源钻瓜专利网。





