[发明专利]一种动态网页爬虫系统有效
申请号: | 201710440709.7 | 申请日: | 2017-06-12 |
公开(公告)号: | CN109033115B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 刘少鹏;马震远;方浩生;林智勇;李俊 | 申请(专利权)人: | 广东技术师范学院 |
主分类号: | G06F16/953 | 分类号: | G06F16/953 |
代理公司: | 北京前审知识产权代理有限公司 11760 | 代理人: | 张波涛;李锋 |
地址: | 510665 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种动态网页爬虫系统,包括爬虫引擎、调度器、解析模块、项目管道、下载器,所述解析模块包括脚本解析器、渲染器、切换模块,所述脚本解析器通过构建出动态网页的请求规则、解析动态网页中的所有文件并且提取动态网页的内容交给项目管道;所述渲染器通过加载动态网页的异步加载信息构建出完整的动态网页DOM树,并通过模拟操作,获取动态网页内容;所述切换模块检测脚本解析器或渲染器解析动态网页所花费的时间和解析出的内容是否完整,若所需时间超过阈值或内容不完整,则进行切换。本发明提供的爬虫系统采用不同的爬取方法来爬取动态网页,爬取效率高,内存和网络网络资源占用低,具有自适应、智能化的特点。 | ||
搜索关键词: | 一种 动态 网页 爬虫 系统 | ||
【主权项】:
1.一种动态网页爬虫系统,其特征在于,包括爬虫引擎、调度器、解析模块、项目管道、下载器,所述爬虫引擎,用于处理数据流,触发事务;所述调度器,用于接收爬虫引擎或解析模块发出的请求,将请求压入队列中调度下载器进行下载,并在爬虫引擎再次请求的时候返回;所述解析模块,用于构建或解析动态网页的异步加载信息,分析从下载器提取网页中的数据元素;所述项目管道,用于处理由解析器从网页中抽取的数据或响应爬虫引擎的请求;所述下载器,用于响应调度器的任务请求并下载网页内容,并将网页内容返回给解析模块;所述解析模块包括脚本解析器、渲染器、切换模块,所述脚本解析器通过网络抓包工具搜索和查询动态信息的文件类型,根据动态信息的文件类型对动态信息文件的结构进行建模,构建出动态网页的请求规则、解析动态网页中的所有文件并且提取动态网页的内容交给项目管道;若解析失败,则交由切换模块处理;所述渲染器通过加载动态网页的异步加载信息构建出完整的动态网页DOM树,并通过模拟操作,解析出动态网页中的从服务器返回的异步加载内容直至完整提取动态网页内容,若解析失败则交由切换模块转向脚本解析器处理;所述切换模块检测脚本解析器或渲染器解析动态网页所花费的时间和解析出的内容是否完整,若所需时间超过阈值或内容不完整,则进行切换。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范学院,未经广东技术师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710440709.7/,转载请声明来源钻瓜专利网。