[发明专利]网站指纹的计算方法、系统、存储介质和终端在审
申请号: | 202111487908.6 | 申请日: | 2021-12-07 |
公开(公告)号: | CN114154043A | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 黄明义;何松 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958;G06F16/35 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 吴欣蔚 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 指纹 计算方法 系统 存储 介质 终端 | ||
本申请提供一种网站指纹的计算方法,包括:获取网站样本,并从网站样本中确定目标网站;计算目标网站对应文档对象化模型的结构向量值;对目标网站爬虫,得到静态资源列表,解析目标网站的静态文件资源列表,输出网站样本中每个静态资源对应的网站列表;解析目标网站的特征字段;根据结构向量值、每个静态资源对应的网站列表和特征字段对网站进行分类,并确定示例网站;将示例网站的特征作为网站指纹。本申请能够自动地在海量样本网站中发现具有相似性的网站,并将相似网站的公共特征提取成指纹,可以提高网站指纹的计算效率,减少人力投入,降低人工成本。本申请还提供一种网站指纹的检测系统、计算机可读存储介质和终端,具有上述有益效果。
技术领域
本申请涉及网络安全领域,特别涉及一种网站指纹的计算方法、计算系统、存储介质和终端。
背景技术
当前,在应用开发中,常需要获取网站应用的身份标识,即获取网站指纹,但针对批量网站样本进行指纹主要依赖于人工采集,需要针对每个网站采集其特征字段,并就特征字段进行网站之间的两两比对。一旦网站样本的样本数量较多,将大大降低网站指纹的计算效率,且容易出现误报。
因此,如何提高网站指纹的计算效率是本领域技术人员亟需解决的技术问题。
发明内容
本申请的目的是提供一种网站指纹的计算方法、计算系统、存储介质和终端,能够提高网站指纹的计算效率。
为解决上述技术问题,本申请提供一种网站指纹的计算方法,具体技术方案如下:
获取网站样本,并从所述网站样本中确定目标网站;
计算所述目标网站对应文档对象化模型的结构向量值;
对所述目标网站爬虫,得到静态资源列表,解析所述目标网站的静态文件资源列表,输出所述网站样本中每个静态资源对应的网站列表;
解析所述目标网站的特征字段;
根据所述结构向量值、每个静态资源对应的网站列表和所述特征字段对网站进行分类,并确定示例网站;
将所述示例网站的特征作为所述网站指纹。
可选的,所述计算目标网站的文档对象化模型的结构向量值包括:
获取目标网站html页面,构造所述文档对象化模型;
在所述文档对象化模型中选取父节点为头部元素作为目标节点,将每个所述目标节点的元素名与属性拼接成字符串;
计算所述字符串的哈希值,将所述哈希值与所述目标节点的权重相乘得到所述目标节点对应的权重值;其中,所述目标节点的节点深度越大,与所述目标节点相同的节点越多,所述目标节点的权重越小;
累加所有目标节点的权重值,得到结构向量值。
可选的,所述解析所述目标网站的静态文件资源列表包括:
对所述静态文件资源列表中的静态资源预处理,去除公共库资源和静态资源的特征信息;
构造静态资源字典,对相邻静态文件资源名通过预设公式计算得到静态哈希值,并建立所述静态哈希值、所述静态文件资源名列表和所述静态文件资源对应网页地址的映射关系;
计算所述静态文件资源列表中每个静态文件资源名的哈希值,得到所述静态文件资源列表对应的哈希值列表;
对相邻静态文件资源名通过预设公式计算得到静态哈希值;
判断所述静态资源字典是否包含所述静态哈希值;
若是,确定所述目标网站与其余网站的静态文件资源列表存在交集,在所述静态文件资源对应网页地址列表中添加所述目标网站的网页地址;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111487908.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种桥梁工程领域的桥梁施工用支撑设备
- 下一篇:一种接线块及一种双定子电机