[发明专利]网页数据处理方法、装置、计算机设备及存储介质有效

申请号：	201711487763.3	申请日：	2017-12-30
公开（公告）号：	CN108062413B	公开（公告）日：	2019-05-28
发明（设计）人：	张澍滋	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/953	分类号：	G06F16/953;G06F16/955;G06F21/57
代理公司：	广州华进联合专利商标代理有限公司 44224	代理人：	易皎鹤
地址：	518052 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页数据处理方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种网页数据处理方法、装置、计算机设备及存储介质。该方法包括：获取第一网页的第一网页数据，查询与第一网页数据关联的第二网页地址；从第二网页地址中获取第二网页对应的网站的域名，提取第二网页对应的网站的域名的后缀；当第二网页对应的网站的域名的后缀与预存的标准域名的后缀相同时，则获取与标准域名对应的网络地址作为第二网页的网络地址；根据第二网页的网络地址对第二网页进行访问，并爬取第二网页上的第二网页数据；将第一网页数据与第二网页数据分别输出至对应的类别。上述网页数据处理方法、装置、计算机设备及存储介质避免只查询到第一网页数据而导致的查询的网页数据有遗漏，进而导致分析网页数据不准确。

技术领域

本发明涉及网络安全领域，特别是涉及一种网页数据处理方法、装置、计算机设备及存储介质。

背景技术

随着互联网科技的发展，在生活中，用户可以从网络上获取到越来越多的信息，因此，有时会出现一些相关的高危漏洞或者于高危漏洞相关的高危信息，则从网页上获取到高危漏洞或者高危漏洞的相关信息是非常重要的。

传统地，是从当前已知的网页上查询相应的网页数据，从而对网页数据进行分析得到有关高危漏洞或者高危漏洞的相关信息，但是，仅从当前网页查询相应的网页数据会导致大量的网页数据出现遗漏，导致对网页数据分析不准确。

发明内容

基于此，有必要针对遗漏包含高危漏洞或者高危漏洞有关的高危信息的网页数据的问题，提供一种网页数据处理方法、装置、计算机设备及存储介质。

一种网页数据处理方法，所述方法包括：

获取第一网页的第一网页数据，查询与所述第一网页数据关联的第二网页地址；

从所述第二网页地址中获取所述第二网页对应的网站的域名，提取所述第二网页对应的网站的域名的后缀；

当所述第二网页对应的网站的域名的后缀与预存的标准域名的后缀相同时，则获取与所述标准域名对应的网络地址作为所述第二网页的网络地址；

根据所述第二网页的网络地址对所述第二网页进行访问，并爬取所述第二网页上的第二网页数据；