[发明专利]基于第三方服务ID的非法网站检测方法及装置在审
申请号: | 202310019128.1 | 申请日: | 2023-01-06 |
公开(公告)号: | CN116055155A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 尹姜谊;王晨旭;李钊;张中一;马小青;刘庆云;杨嵘 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L61/4511 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 陈艳 |
地址: | 100085*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 第三 服务 id 非法 网站 检测 方法 装置 | ||
1.一种基于第三方服务ID的非法网站检测方法,其特征在于,所述方法包括:
利用白名单ID对多个待检测网站进行过滤,并基于网站的过滤结果,构造待检测社区;
提取待检测社区的社区域名语义特征、网站ID特征和社区统计特征;
基于社区域名语义特征、网站ID特征和社区统计特征,得到多个待检测网站的非法检测结果。
2.如权利要求1所述的方法,其特征在于,所述利用白名单ID对多个待检测网站进行过滤,并基于网站的过滤结果,构造待检测社区,包括:
建立ID匹配规则;
基于所述ID匹配规则,从合法域名中进行网站ID提取,以得到白名单ID;
利用白名单ID对多个待检测网站进行过滤,得到可疑网站;
利用网站ID对网站进行聚类,以得到若干个社区;
将域名数量大于2个的社区作为待检测社区。
3.如权利要求2所述的方法,其特征在于,所述ID匹配规则,包括:网站ID中至少包含一个数字、网站ID出现在‘?’字符或者‘=’字符之后、网站ID长度在指定长度区间之内、和一个URL中最多不超过2个网站ID。
4.如权利要求1所述的方法,其特征在于,所述提取待检测社区的社区域名语义特征,包括:
对待检测社区的域名进行预处理;所述预处理包括:将域名中的不同字符映射成数字和对齐域名的长度;
基于预处理后的域名,构建域名语义矩阵;
利用内核捕获域名语义矩阵中的语义相似性,得到若干个语义向量;
对所述语义向量进行横向合并,得到所述待检测社区的社区域名语义特征。
5.如权利要求1所述的方法,其特征在于,所述提取待检测社区的网站ID特征,包括:
利用异质图捕获待检测社区中的连接关系;其中,所述异质图的边包括:ID,Domain、Domain,IP、Domain,Cname、Domain,Whois注册商、Domain,CA注册商和IP,AS;
将所述连接关系输入HAN模型,得到所述待检测社区的网站ID特征。
6.如权利要求1所述的方法,其特征在于,所述社区统计特征,包括:所有域名平均长度、所有域名中数字个数平均值、所有域名中字母个数平均值、所有域名中最长连续数字平均值、所有域名中有意义单词的平均个数、所有域名的New TLD多样性、所有域名TLD的多样性、所有域名之间的Levenshtein距离、所有域名的IP的偏离值、所有域名的AS偏离值、所有域名之间的注册时间的差值、所有域名的whois注册商平均个数和所有域名的平均存活时间。
7.如权利要求6所述的方法,其特征在于,所述所有域名的New TLD多样性W(c)=-∑Pi(x)log2(Pi(x));其中,Pi(x)表示第i个NewTLD的出现概率。
8.如权利要求6所述的方法,其特征在于,所述所有域名的IP的偏离值其中,m表示社区中域名对应的IP的数量,IPk、IPl分别表示第k个域名的IP和第l个域名的IP,
9.如权利要求6所述的方法,其特征在于,所述所有域名之间的注册时间的差值其中,timei表示第i个域名的注册时间,n表示待检测社区中的域名总数量。
10.一种基于第三方服务ID的非法网站检测装置,其特征在于,所述装置包括:
社区构造模块,用于利用白名单ID对多个待检测网站进行过滤,并基于网站的过滤结果,构造待检测社区;
特征提取模块,用于提取待检测社区的社区域名语义特征、网站ID特征和社区统计特征;
非法检测模块,用于基于社区域名语义特征、网站ID特征和社区统计特征,得到多个待检测网站的非法检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310019128.1/1.html,转载请声明来源钻瓜专利网。