[发明专利]网页数据处理方法、装置、计算机设备及存储介质有效
申请号: | 201711487763.3 | 申请日: | 2017-12-30 |
公开(公告)号: | CN108062413B | 公开(公告)日: | 2019-05-28 |
发明(设计)人: | 张澍滋 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/955;G06F21/57 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 易皎鹤 |
地址: | 518052 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网页 数据处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种网页数据处理方法,其特征在于,所述方法包括:
获取第一网页的第一网页数据,通过所述第一网页数据在数据查询库中与预存储的待匹配数据进行匹配,当匹配成功时,则获取到所述待匹配数据对应的第二网页地址;
从所述第二网页地址中获取所述第二网页对应的网站的域名,提取所述第二网页对应的网站的域名的后缀;
当所述第二网页对应的网站的域名的后缀与预存的标准域名的后缀相同时,则获取与所述标准域名对应的网络地址作为所述第二网页的网络地址,所述网络地址为通信标识;
根据所述第二网页的网络地址对所述第二网页进行访问,并爬取所述第二网页上的第二网页数据;
将所述第一网页数据与所述第二网页数据分别输出至对应的类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第二网页的网络地址对所述第二网页进行访问,并爬取所述第二网页上的第二网页数据的步骤,包括:
当所述第二网页携带有限制访问标识时,则向代理服务器发送爬取所述第二网页上的网页数据的爬取指令;
接收所述代理服务器返回的身份验证请求,并根据所述身份验证请求向所述代理服务器发送对应的身份标识;
当所述身份标识经所述代理服务器验证成功时,则接收所述代理服务器返回的从所述第二网页上爬取到的网页数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第二网页的网络地址对所述网页进行访问,并爬取所述第二网页上的第二网页数据的步骤,包括:
当所述第二网页未携带有限制访问标识时,则根据所述第二网页地址,获取所述第二网页对应的爬取逻辑与通信协议;
根据所述第二网页对应的通信协议访问所述第二网页并遍历所述第二网页的第二网页数据;
当遍历到与所述爬取逻辑对应的第二网页数据时,则爬取与所述爬取逻辑对应的第二网页数据。
4.根据权利要求1所述的方法,其特征在于,所述将所述第一网页数据与所述第二网页数据分别输出至对应的类别的步骤,包括:
将所述第一网页数据携带的网页标识以及所述第二网页数据携带的网页标识分别与已存取的网页标识进行匹配;
当所述第一网页数据携带的网页标识以及所述第二网页数据携带的网页标识其中至少一个与已存储的网页标识不匹配时,则提取不匹配的网页数据的关键字;
将不匹配的网页数据输出至与所述关键字对应的存储类别下。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取预设的接收所述第一网页数据与所述第二网页数据的邮箱地址;
提取所述邮箱地址对应的部门标识,并获取与所述部门标识对应的存储类别;
将所获取的所述存储类别下的第一网页数据与第二网页数据发送至所述邮箱地址对应的邮箱中。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述第二网页的网络地址对所述网页进行访问,并爬取所述第二网页上的第二网页数据的步骤,包括:
预设爬取所述第二网页的第二网页数据的爬取时间;
当到达所述爬取时间时,则从网络地址库中随机选取可用的爬取网络地址;
通过所述爬取网络地址访问所述第二网页,并爬取所述第二网页上的第二网页数据。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述第二网页的网络地址对所述第二网页进行访问,并爬取所述第二网页上的第二网页数据的步骤,包括:
根据所述第二网页的网络地址访问所述第二网页并查询所述第二网页是否渲染完成;
当所述第二网页未渲染完成时,则根据所述第二网页地址获取所述第二网页对应的渲染逻辑;
根据所述第二网页对应的渲染逻辑对所述第二网页进行渲染;
爬取渲染完成的所述第二网页上的第二网页数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711487763.3/1.html,转载请声明来源钻瓜专利网。