[发明专利]网页数据处理方法、装置、计算机设备及存储介质有效
申请号: | 201711487763.3 | 申请日: | 2017-12-30 |
公开(公告)号: | CN108062413B | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 张澍滋 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/955;G06F21/57 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 易皎鹤 |
地址: | 518052 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 数据处理 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及一种网页数据处理方法、装置、计算机设备及存储介质。该方法包括:获取第一网页的第一网页数据,查询与第一网页数据关联的第二网页地址;从第二网页地址中获取第二网页对应的网站的域名,提取第二网页对应的网站的域名的后缀;当第二网页对应的网站的域名的后缀与预存的标准域名的后缀相同时,则获取与标准域名对应的网络地址作为第二网页的网络地址;根据第二网页的网络地址对第二网页进行访问,并爬取第二网页上的第二网页数据;将第一网页数据与第二网页数据分别输出至对应的类别。上述网页数据处理方法、装置、计算机设备及存储介质避免只查询到第一网页数据而导致的查询的网页数据有遗漏,进而导致分析网页数据不准确。
技术领域
本发明涉及网络安全领域,特别是涉及一种网页数据处理方法、装置、计算机设备及存储介质。
背景技术
随着互联网科技的发展,在生活中,用户可以从网络上获取到越来越多的信息,因此,有时会出现一些相关的高危漏洞或者于高危漏洞相关的高危信息,则从网页上获取到高危漏洞或者高危漏洞的相关信息是非常重要的。
传统地,是从当前已知的网页上查询相应的网页数据,从而对网页数据进行分析得到有关高危漏洞或者高危漏洞的相关信息,但是,仅从当前网页查询相应的网页数据会导致大量的网页数据出现遗漏,导致对网页数据分析不准确。
发明内容
基于此,有必要针对遗漏包含高危漏洞或者高危漏洞有关的高危信息的网页数据的问题,提供一种网页数据处理方法、装置、计算机设备及存储介质。
一种网页数据处理方法,所述方法包括:
获取第一网页的第一网页数据,查询与所述第一网页数据关联的第二网页地址;
从所述第二网页地址中获取所述第二网页对应的网站的域名,提取所述第二网页对应的网站的域名的后缀;
当所述第二网页对应的网站的域名的后缀与预存的标准域名的后缀相同时,则获取与所述标准域名对应的网络地址作为所述第二网页的网络地址;
根据所述第二网页的网络地址对所述第二网页进行访问,并爬取所述第二网页上的第二网页数据;
将所述第一网页数据与所述第二网页数据分别输出至对应的类别。
在其中一个实施例中,所述根据所述第二网页的网络地址对所述第二网页进行访问,并爬取所述第二网页上的第二网页数据的步骤,包括:
当所述第二网页携带有限制访问标识时,则向代理服务器发送爬取所述第二网页上的网页数据的爬取指令;
接收所述代理服务器返回的身份验证请求,并根据所述身份验证请求向所述代理服务器发送对应的身份标识;
当所述身份标识经所述代理服务器验证成功时,则接收所述代理服务器返回的从所述第二网页上爬取到的网页数据。
在其中一个实施例中,所述根据所述第二网页的网络地址对所述网页进行访问,并爬取所述第二网页上的第二网页数据的步骤,包括:
当所述第二网页未携带有限制访问标识时,则根据所述第二网页地址,获取所述第二网页对应的爬取逻辑与通信协议;
根据所述第二网页对应的通信协议访问所述第二网页并遍历所述第二网页的第二网页数据;
当遍历到与所述爬取逻辑对应的第二网页数据时,则爬取与所述爬取逻辑对应的第二网页数据。
在其中一个实施例中,所述将所述第一网页数据与所述第二网页数据分别输出至对应的类别的步骤,包括:
将所述第一网页数据携带的网页标识以及所述第二网页数据携带的网页标识分别与已存取的网页标识进行匹配;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711487763.3/2.html,转载请声明来源钻瓜专利网。