[发明专利]基于R语言的网页内容爬取方法、系统和存储介质在审

申请号：	201811061186.6	申请日：	2018-09-12
公开（公告）号：	CN109284434A	公开（公告）日：	2019-01-29
发明（设计）人：	张进虎;麦家健;林晨曦	申请（专利权）人：	东莞数汇大数据有限公司
主分类号：	G06F16/953	分类号：	G06F16/953;G06F16/958
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	胡辉
地址：	523900 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	抓取页面信息层级语言服务器存储介质爬虫技术网页内容网页页面内容模拟浏览器可用性编码问题后续处理设定条件异步加载语言应用直接存储直接执行不一致浏览器源码语言网页应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于R语言的网页内容爬取方法、系统和存储介质，包括以下步骤：搭建R语言服务器；在R语言服务器中执行以下步骤：获取原始层级的网页的URL并启动浏览器；抓取原始层级页面的第一页面信息；根据第一页面信息和/或设定条件，判断是否需要抓取下一层级页面的内容，若是，则抓取下一层页面的第二页面信息；反之，则直接执行下一步骤；直接存储或者处理获得的页面信息。本发明将R语言应用在爬虫技术，可以通过模拟浏览器的功能，来解决异步加载网页页面内容和源码不一致的问题，使得抓取的数据的可用性高，降低编码问题出现的可能性，提升了数据后续处理的速度。本发明可以广泛应用于爬虫技术。

技术领域

本发明涉及爬虫技术，尤其是一种基于R语言的网页内容爬取方法、系统和存储介质。

背景技术

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，网络爬虫是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。

但是随着网页加密技术的发展，在页面抓取过程出现异步加载页面内容与源码不一致的问题越来越多，增大了信息抓取的难度，导致网络爬虫的可用性降低，因此网络爬虫需要得到改进。

发明内容

为解决上述技术问题，本发明的目的在于：提供一种基于R语言的网页内容爬取方法、系统和存储介质。

本发明所采取的第一技术方案是：

一种基于R语言的网页内容爬取方法，包括以下步骤：

搭建R语言服务器；

在R语言服务器中执行数据抓取步骤；

所述数据抓取步骤包括：