[发明专利]一种自动发现挖掘Web组件指纹的方法有效
| 申请号: | 202010197426.6 | 申请日: | 2020-03-19 |
| 公开(公告)号: | CN111475464B | 公开(公告)日: | 2023-04-25 |
| 发明(设计)人: | 陈龙;周双飞;夏书银 | 申请(专利权)人: | 重庆邮电大学 |
| 主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/958 |
| 代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 杨柳岸 |
| 地址: | 400065 *** | 国省代码: | 重庆;50 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 自动 发现 挖掘 web 组件 指纹 方法 | ||
本发明涉及一种自动发现挖掘Web组件指纹的方法,属于计算机网络领域。该方法包括以下步骤:采集不同域名的网站网页数据,存入网站网页数据库;计算各开源组件源码中独有的JS文件、CSS文件和图片的静态文件的任一种数字摘要(Hash值);提取网站静态文件特征库中CountN(N是大于2的某自然数)的数据数字摘要,将此数字摘要与组件源码文件特征数据库中的数据数字摘要依次匹配;基于网站_组件关联库,提取组件源码文件特征库中该组件的特殊文件路径特征与关键字特征信息,将每一条特征信息在包含该组件的大量网站中进行匹配;选择待选组件指纹库中命中次数较多的特征信息加入组件指纹库。本发明能实现自动发现挖掘Web组件指纹。
技术领域
本发明属于计算机网络领域,涉及一种自动发现挖掘Web组件指纹的方法。
背景技术
网站由组件构成,服务器、数据库、web容器、插件、中间件等都属于网站组件。在识别网站有哪些组件构成时,一般采用基于组件指纹匹配的方式实现,组件指纹是指可以唯一识别组件的某一段信息,可以是组件独有的静态文件Hash值(JS文件、CSS文件、图片等)、特殊文件路径、关键字段等。当组件指纹匹配成功时,即说明该网站使用了该组件。
在上述几种指纹中,利用静态文件Hash值识别组件是最准确的识别方法。本发明基于这一特征进行延展。
组件指纹库的丰富程度和其准确性成了组件指纹识别的主要制约条件。组件快速增加与组件版本的更迭导致组件指纹增加、变化,使得获取组件指纹成了一项耗时耗力的工程。
现有技术的缺陷和不足:
现有的组件指纹的发现主要依靠人工标注完成,因此各Web组件指纹识别平台或开源工具都有提交组件指纹的功能或途径,其缺点是成本高,效率低。
发明内容
有鉴于此,本发明的目的在于提供一种自动发现挖掘Web组件指纹的方法,解决的主要问题是自动发现组件指纹,高效、低成本地完成这项工作,摆脱主要依靠人工标注组件指纹的局面,做到自动化发现为主、人工标注为辅。
为达到上述目的,本发明提供如下技术方案:
一种自动发现挖掘Web组件指纹的方法,该方法包括以下步骤:
1)建立网页数据库、网站静态文件数值摘要,即Hash值的特征库、组件源码文件特征库、网站_组件关联库、组件指纹库、待选组件指纹库;
2)采集不同域名下的网站网页数据,存入网页数据库;
3)处理网站数据,有如下步骤:
3.1)计算该网站的JavaScript语言文件、层叠样式表CSS文件和图片的静态文件的Hash值,以及特殊文件路径特征和关键字特征;一个网站具有若干的静态文件数值摘要值,即Hash值、特殊文件路径、关键字特征;
3.2)将上述计算得到的Hash值存入网站静态文件特征库,若该Hash值已存在数据库中,则计数Count增加1;
4)计算各开源组件源码文件中独有的JS文件、CSS文件和图片的静态文件的Hash值,以及特有文件路径特征关键字特征,将计算结果存入组件源码文件特征数据库;一个组件具有若干静态文件Hash值;
5)网站静态文件Hash值特征与组件源码文件Hash值比较匹配,有如下步骤:
5.1)从网站静态文件特征库中提取计数一条CountN的Hash值数据,N是大于2的任意自然数字;
5.2)将5.1提取到的Hash值与组件源码文件特征数据库中的Hash值依次进行比较匹配,若两条Hash值相同,则匹配成功;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010197426.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:预处理-声波联用硅块破碎装置和方法
- 下一篇:数据处理方法及服务器





