[发明专利]数据爬取方法及系统在审

申请号：	201910395359.6	申请日：	2019-05-13
公开（公告）号：	CN110134853A	公开（公告）日：	2019-08-16
发明（设计）人：	郭奇杰	申请（专利权）人：	重庆八戒传媒有限公司
主分类号：	G06F16/953	分类号：	G06F16/953
代理公司：	北京酷爱智慧知识产权代理有限公司 11514	代理人：	邹成娇
地址：	401121 重庆市渝北区北部新***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页分级信息爬虫规则节点页面解析网站网页数据采集效率自定义规则定制需求对外接口二次开发数据抓取提取数据网页数据网页信息工作流细化解析申请应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供一种数据爬取方法及系统，所述方法包括：获取待爬取网站的网页分级信息和相应的网页信息；基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树；基于所述爬虫树对所述待爬取网站进行数据爬取。本采用工作流的方式来获取网页数据，应用自定义规则的方式来解析网页，获取自己需要的信息，能够大大提高不同类型网页的数据采集效率，同时结合对外接口，方便用户二次开发使用，满足用户各类定制需求。同时通过多级页面解析规则节点的设置，可以细化提取数据，进一步提高数据抓取的效率和速度。

技术领域

本申请涉及数据分析领域，具体涉及一种数据爬取方法及系统。

背景技术

随着互联网的快速发展，各类自媒体的兴起，每天都会产生海量的信息，而人们要想在这些海量的信息中筛选出自己所需要的也变得越来越困难。各类搜索引擎也成为了人们快速查找信息的主要工具。然而随着各类个性化、专业化的数据需求的不断增加，对数据的要求也越来越高，普通的搜索引擎已经无法满足大家的需要了。

用户越来越感觉到很难在短时间内按照用户所需的工作流程准确筛选出需要的内容，很难迅速地找到所需要的信息。因此，爬虫服务需要细化，需要更加通用的工作流程、更加有效的定制化服务。

发明内容

为了解决上述问题，本申请提供一种数据爬取方法及系统，首先获取待爬取网站的网页分级信息和每页的网页信息；然后对应每一级网页，设定至少一级页面解析规则节点以生成爬虫树；最后利用所述爬虫树对所述待爬取网站进行数据爬取。本采用工作流的方式来获取网页数据，应用自定义规则的方式来解析网页，获取自己需要的信息，能够大大提高不同类型网页的数据采集效率，同时结合对外接口，方便用户二次开发使用，满足用户各类定制需求。同时通过多级页面解析规则节点的设置，可以细化提取数据，进一步提高数据抓取的效率和速度。

第一方面，本申请实施例提供一种数据爬取方法，其特征在于，包括：

获取待爬取网站的网页分级信息和相应的网页信息；

基于网页分级信息，设定至少一级页面解析规则节点以生成爬虫树；

基于所述爬虫树对所述待爬取网站进行数据爬取。

在某些实施例中，所述获取待爬取网站的网页分级信息，包括：

设置第一级页面解析规则节点，获取所述待爬取网站的当前网页的网页信息；

执行迭代操作，确定是否可由当前网页跳转至下一级网页，。

在某些实施例中，若可跳转至下一级网页，设置对应下一级的页面解析规则节点，并获取下一级网页的网页信息，直至确定不可由当前网页跳转至下一级网页。

在某些实施例中，上一级页面解析规则节点是相邻下一级页面解析规则节点的父节点。

在某些实施例中，所述方法还包括：每个节点包含有页面解析规则，用于解析设定格式或类型的网页信息。

第二方面，本申请提供一种数据爬取系统，其特征在于，包括：

获取模块，其用于获取待爬取网站的网页分级信息和相应的网页信息；