[发明专利]基于R语言的网页内容爬取方法、系统和存储介质在审
| 申请号: | 201811061186.6 | 申请日: | 2018-09-12 |
| 公开(公告)号: | CN109284434A | 公开(公告)日: | 2019-01-29 |
| 发明(设计)人: | 张进虎;麦家健;林晨曦 | 申请(专利权)人: | 东莞数汇大数据有限公司 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/958 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
| 地址: | 523900 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 抓取 页面信息 层级 语言服务器 存储介质 爬虫技术 网页内容 网页页面内容 模拟浏览器 可用性 编码问题 后续处理 设定条件 异步加载 语言应用 直接存储 直接执行 不一致 浏览器 源码 语言 网页 应用 | ||
本发明公开了一种基于R语言的网页内容爬取方法、系统和存储介质,包括以下步骤:搭建R语言服务器;在R语言服务器中执行以下步骤:获取原始层级的网页的URL并启动浏览器;抓取原始层级页面的第一页面信息;根据第一页面信息和/或设定条件,判断是否需要抓取下一层级页面的内容,若是,则抓取下一层页面的第二页面信息;反之,则直接执行下一步骤;直接存储或者处理获得的页面信息。本发明将R语言应用在爬虫技术,可以通过模拟浏览器的功能,来解决异步加载网页页面内容和源码不一致的问题,使得抓取的数据的可用性高,降低编码问题出现的可能性,提升了数据后续处理的速度。本发明可以广泛应用于爬虫技术。
技术领域
本发明涉及爬虫技术,尤其是一种基于R语言的网页内容爬取方法、系统和存储介质。
背景技术
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,网络爬虫是搜索引擎的重要组成。网络爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
但是随着网页加密技术的发展,在页面抓取过程出现异步加载页面内容与源码不一致的问题越来越多,增大了信息抓取的难度,导致网络爬虫的可用性降低,因此网络爬虫需要得到改进。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种基于R语言的网页内容爬取方法、系统和存储介质。
本发明所采取的第一技术方案是:
一种基于R语言的网页内容爬取方法,包括以下步骤:
搭建R语言服务器;
在R语言服务器中执行数据抓取步骤;
所述数据抓取步骤包括:
抓取原始层级页面的第一页面信息;
根据第一页面信息和/或设定条件,判断是否需要抓取下一层级页面的内容,若是,则抓取下一层页面的第二页面信息;反之,则直接执行下一步骤;
将获取的第一页面信息和/或第二页面信息存入数据库,或者将获取的第一页面信息和/或第二页面信息进行数据处理。
进一步,所述搭建R语言服务器,其具体包括:
加载R语言的基础包、数据库调用包和网页抓取包;
配置浏览器驱动、系统环境变量和Selenium服务。
进一步,所述抓取原始层级页面的第一页面信息,其具体包括:
抓取原始层级页面的设定网页元素作为第一页面信息;
或者
根据设定内容在原始层级页面的搜索框中进行搜索,并抓取搜索结果中的设定元素作为第一页面信息。
进一步,还包括以下在R语言服务器中执行步骤:
当浏览器打开的页面数量达到设定阈值时,重新启动浏览器。
本发明所采取的第二技术方案是:
一种基于R语言的网页内容爬取系统,包括:
搭建模块,用于搭建R语言服务器;
R语言服务器,用于执行数据抓取;
所述R语言服务器包括:
获取模块,用于获取原始层级的网页的URL并启动浏览器;
抓取模块,用于抓取原始层级页面的第一页面信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞数汇大数据有限公司,未经东莞数汇大数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811061186.6/2.html,转载请声明来源钻瓜专利网。





