[发明专利]网站域名相似度检测方法和装置在审
申请号: | 202010548219.0 | 申请日: | 2020-06-16 |
公开(公告)号: | CN113807087A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 蔡鑫;施丽佳 | 申请(专利权)人: | 中国电信股份有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F16/955 |
代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 赵倩男 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 域名 相似 检测 方法 装置 | ||
本公开公开了一种网站域名相似度检测方法和装置,涉及互联网安全领域。该方法包括:将待检测网站域名字符串与目标网站域名字符串进行匹配;获取所述待检测网站域名字符串与所述目标网站域名字符串之间的多个公共子串,其中,每个所述公共子串中包括一个或多个字符,相邻两个所述公共子串之间相隔至少一个字符,所述至少一个字符不属于任何一个所述公共子串;以及根据所述多个公共子串中的字符个数之和,与所述目标网站域名字符串中的字符个数的比值,确定待检测网站域名与目标网站域名的相似度。本公开优化了网站域名相似度计算结果,使得相似度计算结果更加准确。
技术领域
本公开涉及互联网安全领域,尤其涉及一种网站域名相似度检测方法和装置。
背景技术
互联网上存在一些恶意的网页,通过在URL(Uniform Resource Locator,统一资源定位符)中嵌入与他人域名相同或相似的字符串,起到混淆、仿冒他人域名,从而达到钓鱼欺诈的目的。通过Jaro等编辑距离算法可以计算仿冒域名与被仿冒域名之间的相似度,从而将企图仿冒者找出。但此类的算法计算量较大,当面临大批量的待测域名相似度比较时,效率较低。
相关技术中,通过最长公共子串方法,计算域名之间的相似度。但最长公共子串方法仅能严格匹配二者完全相同的子串部分,对于局部经过修改替换、增加字符、删除字符等类似“编辑”情形,无法实现实际意义上的最长匹配。
发明内容
本公开要解决的一个技术问题是,提供一种网站域名相似度检测方法和装置,能够提高网站域名相似度计算的准确性。
根据本公开一方面,提出一种网站域名相似度检测方法,包括:将待检测网站域名字符串与目标网站域名字符串进行匹配;获取待检测网站域名字符串与目标网站域名字符串之间的多个公共子串,其中,每个公共子串中包括一个或多个字符,相邻两个公共子串之间相隔至少一个字符,至少一个字符不属于任何一个公共子串;以及根据多个公共子串中的字符个数之和,与目标网站域名字符串中的字符个数的比值,确定待检测网站域名与目标网站域名的相似度。
在一些实施例中,获取待检测网站域名字符串与目标网站域名字符串之间的多个公共子串包括:基于最长公共子串算法对应的递推矩阵,构建待检测网站域名字符串与目标网站域名字符串之间的矩阵;按照字符串字符个数由大到小的顺序,通过重复迭代查找,确定每一次迭代的局部极大矩阵;以及将每个局部极大矩阵对应的字符串,作为一个公共子串。
在一些实施例中,第n次迭代得到的局部极大矩阵与之前任意第k次迭代得到的局部极大矩阵的坐标满足(xn-xk)(xn+Ln-xk-Lk)>0,且(yn-yk)(yn+Ln-yk-Lk)>0,其中,n、k为自然数,且n>k,xn为第n次迭代得到的局部极大矩阵对应的字符串中的第一个字符在目标网站域名字符串中的位置,xk为第k次迭代得到的局部极大矩阵对应的字符串中的第一个字符在目标网站域名字符串中的位置,yn为第n次迭代得到的局部极大矩阵对应的字符串中的第一个字符在待检测网站域名字符串中的位置,yk为第k次迭代得到的局部极大矩阵对应的字符串中的第一个字符在待检测网站域名字符串中的位置,Ln为第n次迭代得到的局部极大矩阵对应字符串的字符个数,Lk为第k次迭代得到的局部极大矩阵对应字符串的字符个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010548219.0/2.html,转载请声明来源钻瓜专利网。