[发明专利]域名识别方法、装置及服务器有效
申请号: | 201610356505.0 | 申请日: | 2016-05-25 |
公开(公告)号: | CN107438053B | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 熊凯 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 域名 识别 方法 装置 服务器 | ||
1.一种域名识别方法,其特征在于,所述方法包括:
获取第一列表,其中,所述第一列表用于记录待处理的统一资源定位符,所述统一资源定位符与域名对应;所述第一列表包括第一访问频次低于第一预设阈值的统一资源定位符,所述第一访问频次为第二列表记录的域名对应的多个统一资源定位符的访问频次,所述第二列表通过统计第一设定时间周期内未列在可信域名列表的域名获得;
计算所述第一列表记录的每一个统一资源定位符对应的页面文档的页面特征值;
将所述第一列表中具有相同页面特征值的统一资源定位符确定为目标统一资源定位符,将所述目标统一资源定位符对应的域名作为识别结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在设定时间段内,从历史浏览记录中获取已访问的统一资源定位符;
从所述已访问的统一资源定位符中确定在所述第一设定时间周期内均会被访问的域名,所述第一设定时间周期的时长小于所述设定时间段的时长;
在所述第一设定时间周期内,确定所述被访问的域名对应的第二访问频次;
将所述第二访问频次大于第二预设阈值的域名记录在所述可信域名列表中。
3.根据权利要求1所述的方法,其特征在于,所述计算所述第一列表记录的每一个统一资源定位符对应的页面文档的页面特征值,包括:
对于所述第一列表记录的每一个统一资源定位符,通过所述每一个统一资源定位符访问对应的页面,得到该每一个统一资源定位符对应的页面超文本标记语言内容;
将所述页面超文本标记语言内容生成文档对象模型树结构;
对所述文档对象模型树结构进行剪枝;
遍历所述文档对象模型树结构的全部路径并对所述全部路径排序后,将所述文档对象模型树结构拼接为字符串;
通过哈希算法,计算所述字符串对应的哈希值,得到所述第一列表记录的每一个统一资源定位符对应的页面特征值。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述识别结果发送至网络设备,以供所述网络设备对所述识别结果记录的域名进行拦截。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
每隔第二设定时间周期,访问所述识别结果中记录的域名对应的统一资源定位符;
确定所述识别结果中被禁止访问的统一资源定位符对应的域名;
将所述被禁止访问的统一资源定位符对应的域名从所述识别结果中删除。
7.一种域名识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取第一列表,其中,所述第一列表用于记录待处理的统一资源定位符,所述统一资源定位符与域名对应;所述第一列表包括第一访问频次低于第一预设阈值的统一资源定位符,所述第一访问频次为第二列表记录的域名对应的多个统一资源定位符的访问频次,所述第二列表通过统计第一设定时间周期内未列在可信域名列表的域名获得;
第一计算模块,用于计算所述第一获取模块获取到的所述第一列表记录的每一个统一资源定位符对应的页面文档的页面特征值;
第一确定模块,用于将所述第一计算模块计算得到的所述第一列表中具有相同页面特征值的统一资源定位符确定为目标统一资源定位符,将所述目标统一资源定位符对应的域名作为识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610356505.0/1.html,转载请声明来源钻瓜专利网。