[发明专利]网站指纹的计算方法、系统、存储介质和终端在审
申请号: | 202111487908.6 | 申请日: | 2021-12-07 |
公开(公告)号: | CN114154043A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 黄明义;何松 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958;G06F16/35 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 吴欣蔚 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 指纹 计算方法 系统 存储 介质 终端 | ||
1.一种网站指纹的计算方法,其特征在于,包括:
获取网站样本,并从所述网站样本中确定目标网站;
计算所述目标网站对应文档对象化模型的结构向量值;
对所述目标网站爬虫,得到静态资源列表,解析所述目标网站的静态文件资源列表,输出所述网站样本中每个静态资源对应的网站列表;
解析所述目标网站的特征字段;
根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站进行分类,并确定示例网站;
将所述示例网站的特征作为所述网站指纹。
2.根据权利要求1所述的网站指纹的计算方法,其特征在于,所述计算目标网站的文档对象化模型的结构向量值包括:
获取目标网站html页面,构造所述文档对象化模型;
在所述文档对象化模型中选取父节点为头部元素作为目标节点,将每个所述目标节点的元素名与属性拼接成字符串;
计算所述字符串的哈希值,将所述哈希值与所述目标节点的权重相乘得到所述目标节点对应的权重值;其中,所述目标节点的节点深度越大,与所述目标节点相同的节点越多,所述目标节点的权重越小;
累加所有目标节点的权重值,得到结构向量值。
3.根据权利要求1所述的网站指纹的计算方法,其特征在于,所述解析所述目标网站的静态文件资源列表包括:
对所述静态文件资源列表中的静态资源预处理,去除公共库资源和静态资源的特征信息;
构造静态资源字典,对相邻静态文件资源名通过预设公式计算得到静态哈希值,并建立所述静态哈希值、所述静态文件资源名列表和所述静态文件资源对应网页地址的映射关系;
计算所述静态文件资源列表中每个静态文件资源名的哈希值,得到所述静态文件资源列表对应的哈希值列表;
对相邻静态文件资源名通过预设公式计算得到静态哈希值;
判断所述静态资源字典是否包含所述静态哈希值;
若是,确定所述目标网站与其余网站的静态文件资源列表存在交集,在所述静态文件资源对应网页地址列表中添加所述目标网站的网页地址;
若否,保存所述静态哈希值和对应的静态文件资源名列表、所述静态文件资源对应网页地址。
4.根据权利要求3所述的网站指纹的计算方法,其特征在于,所述预设公式为:
其中,i为每次计算取的相邻的静态文件资源个数且i大于2,j为每次计算取的若干静态文件资源中第一个静态文件资源在静态文件资源列表中的索引号,k为迭代遍历,用于遍历索引号在区间[j,j+i-1]内的所有静态资源,xij为静态哈希值。
5.根据权利要求3所述的网站指纹的计算方法,其特征在于,对所述静态文件资源列表中的静态资源预处理,去除公共库资源和静态资源的特征信息包括:
配置公共库资源的路径黑名单和/或文件名黑名单;
删除所述静态文件资源名中版本号和随机数中的至少一种,并去除所述静态资源对应路径中的域名或IP地址。
6.根据权利要求1所述的网站指纹的计算方法,其特征在于,根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站进行分类,并确定示例网站包括:
根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站样本中的网站进行关联分析并归类,每个类中任一原始网站至少存在一个相似网站,所述原始网站和所述相似网站至少存在所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站中的两项相同;
在每一类网站中确定至少一个示例网站。
7.根据权利要求6所述的网站指纹的计算方法,其特征在于,确定示例网站时还包括:
舍弃不存在对应相似网站的样本网站。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111487908.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种桥梁工程领域的桥梁施工用支撑设备
- 下一篇:一种接线块及一种双定子电机