[发明专利]基于R语言的网页内容爬取方法、系统和存储介质在审

申请号：	201811061186.6	申请日：	2018-09-12
公开（公告）号：	CN109284434A	公开（公告）日：	2019-01-29
发明（设计）人：	张进虎;麦家健;林晨曦	申请（专利权）人：	东莞数汇大数据有限公司
主分类号：	G06F16/953	分类号：	G06F16/953;G06F16/958
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	胡辉
地址：	523900 广东省***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于R语言的网页内容爬取方法、系统和存储介质，包括以下步骤：搭建R语言服务器；在R语言服务器中执行以下步骤：获取原始层级的网页的URL并启动浏览器；抓取原始层级页面的第一页面信息；根据第一页面信息和/或设定条件，判断是否需要抓取下一层级页面的内容，若是，则抓取下一层页面的第二页面信息；反之，则直接执行下一步骤；直接存储或者处理获得的页面信息。本发明将R语言应用在爬虫技术，可以通过模拟浏览器的功能，来解决异步加载网页页面内容和源码不一致的问题，使得抓取的数据的可用性高，降低编码问题出现的可能性，提升了数据后续处理的速度。本发明可以广泛应用于爬虫技术。
搜索关键词：	抓取页面信息层级语言服务器存储介质爬虫技术网页内容网页页面内容模拟浏览器可用性编码问题后续处理设定条件异步加载语言应用直接存储直接执行不一致浏览器源码语言网页应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于R语言的网页内容爬取方法，其特征在于：包括以下步骤：搭建R语言服务器；在R语言服务器中执行数据抓取步骤；所述数据抓取步骤包括：获取原始层级的网页的URL并启动浏览器；抓取原始层级页面的第一页面信息；根据第一页面信息和/或设定条件，判断是否需要抓取下一层级页面的内容，若是，则抓取下一层页面的第二页面信息；反之，则直接执行下一步骤；将获取的第一页面信息和/或第二页面信息存入数据库，或者将获取的第一页面信息和/或第二页面信息进行数据处理。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东莞数汇大数据有限公司，未经东莞数汇大数据有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811061186.6/，转载请声明来源钻瓜专利网。

上一篇：面向产品数据管理系统的信息共享方法和装置
下一篇：面向互联网的用户交互痕迹捕获、存储和检索系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于R语言的网页内容爬取方法、系统和存储介质在审

专利文献下载