[发明专利]基于R语言的网页内容爬取方法、系统和存储介质在审
| 申请号: | 201811061186.6 | 申请日: | 2018-09-12 |
| 公开(公告)号: | CN109284434A | 公开(公告)日: | 2019-01-29 |
| 发明(设计)人: | 张进虎;麦家健;林晨曦 | 申请(专利权)人: | 东莞数汇大数据有限公司 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/958 |
| 代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 胡辉 |
| 地址: | 523900 广东省*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于R语言的网页内容爬取方法、系统和存储介质,包括以下步骤:搭建R语言服务器;在R语言服务器中执行以下步骤:获取原始层级的网页的URL并启动浏览器;抓取原始层级页面的第一页面信息;根据第一页面信息和/或设定条件,判断是否需要抓取下一层级页面的内容,若是,则抓取下一层页面的第二页面信息;反之,则直接执行下一步骤;直接存储或者处理获得的页面信息。本发明将R语言应用在爬虫技术,可以通过模拟浏览器的功能,来解决异步加载网页页面内容和源码不一致的问题,使得抓取的数据的可用性高,降低编码问题出现的可能性,提升了数据后续处理的速度。本发明可以广泛应用于爬虫技术。 | ||
| 搜索关键词: | 抓取 页面信息 层级 语言服务器 存储介质 爬虫技术 网页内容 网页页面内容 模拟浏览器 可用性 编码问题 后续处理 设定条件 异步加载 语言应用 直接存储 直接执行 不一致 浏览器 源码 语言 网页 应用 | ||
【主权项】:
1.一种基于R语言的网页内容爬取方法,其特征在于:包括以下步骤:搭建R语言服务器;在R语言服务器中执行数据抓取步骤;所述数据抓取步骤包括:获取原始层级的网页的URL并启动浏览器;抓取原始层级页面的第一页面信息;根据第一页面信息和/或设定条件,判断是否需要抓取下一层级页面的内容,若是,则抓取下一层页面的第二页面信息;反之,则直接执行下一步骤;将获取的第一页面信息和/或第二页面信息存入数据库,或者将获取的第一页面信息和/或第二页面信息进行数据处理。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东莞数汇大数据有限公司,未经东莞数汇大数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811061186.6/,转载请声明来源钻瓜专利网。





