[发明专利]一种钓鱼网站检测方法、装置和存储介质有效
申请号: | 201811270081.1 | 申请日: | 2018-10-29 |
公开(公告)号: | CN111107048B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 李婧;代莎;童超;胡小克;汪洋旭;桑永胜 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/955 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 215163 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 钓鱼 网站 检测 方法 装置 存储 介质 | ||
1.一种钓鱼网站检测方法,其特征在于,包括:
从文本信息中提取待检测网站的第一网址;
分别确定所述第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数;
根据从所述文本信息中提取的第一关键词集合、相似度系数最大的第二网址对应的第二关键词集合以及相似度系数最大值,确定所述第一网址对应的安全风险系数;
根据从待检测网站中提取的网页特征,利用网页分析模型确定所述第一网址对应的网页类型特征值,其中,所述网页分析模型为利用阶梯网络对包含标注信息的已知是否是钓鱼网站类型的第一网页样本进行训练得到的,所述网页特征至少包括页面文档特征、页面图像特征和统一资源标识URL特征;
根据确定出的相似度系数中的最大值、所述安全风险系数和所述网页类型特征值,利用网页识别模型判断所述待检测网站是否为钓鱼网站,其中,所述网页识别模型为利用神经网络对包含标注信息的已知是否是钓鱼网站类型的第二网页样本进行训练得到的。
2.如权利要求1所述的方法,其特征在于,针对所述白名单数据库中所包含的第二网址,按照以下公式确定所述第一网址与所述第二网址之间的相似度系数:其中:
totalA为所述第一网址中包含的字符数量;
countA∩B为所述第一网址和所述第二网址中包含的相同字符数量;
s为所述第一网址与所述第二网址之间的相似度系数。
3.如权利要求2所述的方法,其特征在于,针对所述白名单数据库中所包含的第二网址,在确定出所述第一网址与所述第二网址之间的相似度系数之后,还包括:
针对所述第一网址中包含的每一字符,确定该字符对应的近似字符;以及
利用不同的近似字符组合得到第一网址对应的多个近似网址;
针对得到的每一近似网址,分别确定该近似网址与所述第二网址之间的相似度系数;以及
从所述第一网址与所述第二网址之间的相似度系数以及所述近似网址与所述第二网址之间的相似度系数中选择最大值作为所述第一网址与所述第二网址之间的相似度系数。
4.如权利要求1所述的方法,其特征在于,根据从所述文本信息中提取的第一关键词集合、所述第二网址对应的第二关键词集合以及所述相似度系数最大值,确定所述第一网址对应的安全风险系数,具体包括:
按照以下公式确定所述第一关键词集合对应的置信系数:其中:A表示所述第一关键词集合对应的置信系数;Cmessage表示所述第一关键词集合;Clist表示所述第二关键词集合;card(Cmessage∩Clist)表示第一关键词集合和第二关键词集合中相同的关键词数量;card(Cmessage∪Clist)表示第一关键词集合和第二关键词集合中包含的所有关键词的数量;
确定置信系数与所述相似度系数最大值之间的最大值为所述第一网址对应的安全风险系数。
5.如权利要求1~4任一权利要求所述的方法,其特征在于,在分别确定所述第一网址与预先配置的白名单数据库中所包含的第二网址的相似度系数之前,还包括:
确定所述第一网址不存在于所述第二网址中或者预先配置的黑名单数据库中所包含的第三网址中。
6.如权利要求5所述的方法,其特征在于,还包括:
如果确定所述第一网址存在于所述第二网址中,则输出所述第一网址不是钓鱼网站的检测结果;
如果确定所述第一网址存在于所述第三网址中,则输出所述第一网址是钓鱼网站的检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团有限公司,未经中移(苏州)软件技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811270081.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种液固径向移动床反应装置
- 下一篇:新型管道堵漏器