[发明专利]网页数据爬取方法、装置、系统、计算机设备及存储介质在审

申请号：	201910012240.6	申请日：	2019-01-07
公开（公告）号：	CN109885744A	公开（公告）日：	2019-06-14
发明（设计）人：	吴壮伟	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	深圳市精英专利事务所 44242	代理人：	林燕云
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页内容第二服务器代码框架网页解析解析第一服务器计算机设备存储介质存储区域网页数据源码解析网址存储内容发送信息发送信息通过源码溯源分发保存部署
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了网页数据爬取方法、装置、系统、计算机设备及存储介质。该方法包括：接收第二服务器分发的网址；通过部署的代码框架爬取所述网址对应的网页内容信息；将所述网页内容信息通过所述代码框架进行解析，得到网页解析内容；将所述网页解析内容发送至第二服务器中与所述第一服务器对应的存储区域进行存储；将所述网页解析内容中的源码通过所述代码框架进行解析，得到对应的源码解析信息；以及将所述源码解析信息发送至第二服务器中与所述第一服务器对应的存储区域进行存储。该方法实现了将已爬取的网页内容均进行保存以便于数据溯源，而且还能对网页内容进行二次解析。

技术领域

本发明涉及数据爬取技术领域，尤其涉及一种网页数据爬取方法、装置、系统、计算机设备及存储介质。

背景技术

目前，爬虫系统都是针对指定的内容进行定向爬取，而经常遇到网站改版了，或者数据抓取的位置发生错误时，导致需要重新进行抓取，造成网页内容后期加工成本比较高。

发明内容

本发明实施例提供了一种网页数据爬取方法、装置、系统、计算机设备及存储介质，旨在解决现有技术中爬虫系统都是针对指定的内容进行定向爬取，当遇到网站改版了，或者数据抓取的位置发生错误时，需重新爬取且无法溯源的问题。

第一方面，本发明实施例提供了一种网页数据爬取方法，应用于第一服务器，其包括：

接收第二服务器分发的网址；所述网址为所述第二服务器接收用户端上传的目标网站网址集合的子集；

通过部署的代码框架爬取所述网址对应的网页内容信息；

将所述网页内容信息通过所述代码框架进行解析，得到网页解析内容；

将所述网页解析内容发送至第二服务器中与所述第一服务器对应的存储区域进行存储；

将所述网页解析内容中的源码通过所述代码框架进行解析，得到对应的源码解析信息；以及