[发明专利]基于Scrapy的数据爬取方法、终端设备及计算机可读存储介质在审
申请号: | 201910294765.3 | 申请日: | 2019-04-12 |
公开(公告)号: | CN110147476A | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 董润华;徐国强;邱寒 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 爬虫 配置参数 计算机可读存储介质 终端设备 网页数据 简谱 代码编写 脚本对象 配置文件 文件集合 漏洞 创建 | ||
1.一种基于Scrapy的数据爬取方法,其特征在于,所述方法包括步骤:
在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义;
对所述JSON文件进行命名,创建爬虫文件,并将所述爬虫文件的名称按照所述JSON文件的名称进行命名;
将所述JSON文件的配置参数导入所述爬虫文件;
运行导入配置参数后的爬虫文件,爬取网页数据。
2.如权利要求1所述的基于Scrapy的数据爬取方法,其特征在于,所述在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义的步骤包括:
在所述JSON文件中对所述爬虫文件中各个层级的配置参数进行定义,其中,所述爬虫文件的层级包括爬取器、引擎、调度器、下载器、实体管道、默认配置Setting层级、下载中间件、及爬取中间件。
3.如权利要求2所述的基于Scrapy的数据爬取方法,其特征在于,所述运行导入配置参数后的爬虫文件,爬取网页数据的步骤包括:
通过所述爬虫文件的引擎从所述导入配置参数后的爬虫文件中获取起始URL,并且将获取的URL提交到调度器中;
在需要从URL中下载数据的情况下,所述调度器将URL通过引擎提交给下载器,所述下载器根据URL下载待爬取数据。
4.如权利要求1所述的基于Scrapy的数据爬取方法,其特征在于,所述在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义的步骤包括:
在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的起始网站名、起始网站主页、请求头、基于分布式文件存储的数据库的URI地址、数据库名及集合名进行定义;对跟进网页链接的预处理进行定义;对首页的预处理、起始页的类型、允许域名、跟进的链接函数名、待爬取数据的变量名及匹配方式进行定义,其中,所述匹配方式包括xml路径语言选择器、层叠样式表选择器、及正则表达式。
5.如权利要求1或2所述的基于Scrapy的数据爬取方法,其特征在于,所述运行导入配置参数后的爬虫文件,爬取网页数据的步骤包括:
通过xml路径语言选择器爬取数据;
在所述xml路径语言选择器未爬取到数据的情况下,通过层叠样式表选择器爬取数据;
在所述层叠样式表选择器未匹配到数据的情况下,通过正则表达式爬取数据。
6.如权利要求1或2所述的基于Scrapy的数据爬取方法,其特征在于,所述将所述JSON文件的配置参数导入所述爬虫文件的步骤包括:
在中断命令行接收预先设置的启动命令,根据接收到的启动命令,将所述JSON文件的配置参数导入所述爬虫文件。
7.如权利要求1或2所述的基于Scrapy的数据爬取方法,其特征在于,所述将所述JSON文件的配置参数导入所述爬虫文件的步骤包括:
在爬虫Scrapy配置文件的同级目录下基于爬虫Python语言定义启动文件;
通过所述启动文件将所述JSON文件中的配置参数导入所述Scrapy文件。
8.如权利要求7所述的基于Scrapy的数据爬取方法,其特征在于,所述通过所述启动文件将JSON文件中的配置参数导入所述Scrapy文件的步骤包括:
从所述启动文件获取所述爬虫文件的名称;
确定与所述爬虫文件的名称具有相同名称的JSON文件,从所述确定的JSON文件中获取对应的配置参数;
将所述获取到的配置参数合并到所述Scrapy文件的默认配置文件中。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的基于Scrapy的数据爬取系统,所述基于Scrapy的数据爬取系统被所述处理器执行时实现如权利要求1-8中任一项所述的基于Scrapy的数据爬取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有基于Scrapy的数据爬取系统,所述基于Scrapy的数据爬取系统可被至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-8中任一项所述的基于Scrapy的数据爬取方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910294765.3/1.html,转载请声明来源钻瓜专利网。