[发明专利]基于Scrapy的数据爬取方法、终端设备及计算机可读存储介质在审

申请号：	201910294765.3	申请日：	2019-04-12
公开（公告）号：	CN110147476A	公开（公告）日：	2019-08-20
发明（设计）人：	董润华;徐国强;邱寒	申请（专利权）人：	深圳壹账通智能科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	爬虫配置参数计算机可读存储介质终端设备网页数据简谱代码编写脚本对象配置文件文件集合漏洞创建
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Scrapy的数据爬取方法，其特征在于，所述方法包括步骤：

在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义；

对所述JSON文件进行命名，创建爬虫文件，并将所述爬虫文件的名称按照所述JSON文件的名称进行命名；

将所述JSON文件的配置参数导入所述爬虫文件；

运行导入配置参数后的爬虫文件，爬取网页数据。

2.如权利要求1所述的基于Scrapy的数据爬取方法，其特征在于，所述在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义的步骤包括：

在所述JSON文件中对所述爬虫文件中各个层级的配置参数进行定义，其中，所述爬虫文件的层级包括爬取器、引擎、调度器、下载器、实体管道、默认配置Setting层级、下载中间件、及爬取中间件。

3.如权利要求2所述的基于Scrapy的数据爬取方法，其特征在于，所述运行导入配置参数后的爬虫文件，爬取网页数据的步骤包括：

通过所述爬虫文件的引擎从所述导入配置参数后的爬虫文件中获取起始URL，并且将获取的URL提交到调度器中；

在需要从URL中下载数据的情况下，所述调度器将URL通过引擎提交给下载器，所述下载器根据URL下载待爬取数据。

4.如权利要求1所述的基于Scrapy的数据爬取方法，其特征在于，所述在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的配置参数进行定义的步骤包括：

在爪哇脚本对象简谱JSON文件中对基于Scrapy框架的爬虫文件的起始网站名、起始网站主页、请求头、基于分布式文件存储的数据库的URI地址、数据库名及集合名进行定义；对跟进网页链接的预处理进行定义；对首页的预处理、起始页的类型、允许域名、跟进的链接函数名、待爬取数据的变量名及匹配方式进行定义，其中，所述匹配方式包括xml路径语言选择器、层叠样式表选择器、及正则表达式。

5.如权利要求1或2所述的基于Scrapy的数据爬取方法，其特征在于，所述运行导入配置参数后的爬虫文件，爬取网页数据的步骤包括：

通过xml路径语言选择器爬取数据；

在所述xml路径语言选择器未爬取到数据的情况下，通过层叠样式表选择器爬取数据；

在所述层叠样式表选择器未匹配到数据的情况下，通过正则表达式爬取数据。

6.如权利要求1或2所述的基于Scrapy的数据爬取方法，其特征在于，所述将所述JSON文件的配置参数导入所述爬虫文件的步骤包括：

在中断命令行接收预先设置的启动命令，根据接收到的启动命令，将所述JSON文件的配置参数导入所述爬虫文件。

7.如权利要求1或2所述的基于Scrapy的数据爬取方法，其特征在于，所述将所述JSON文件的配置参数导入所述爬虫文件的步骤包括：

在爬虫Scrapy配置文件的同级目录下基于爬虫Python语言定义启动文件；

通过所述启动文件将所述JSON文件中的配置参数导入所述Scrapy文件。

8.如权利要求7所述的基于Scrapy的数据爬取方法，其特征在于，所述通过所述启动文件将JSON文件中的配置参数导入所述Scrapy文件的步骤包括：

从所述启动文件获取所述爬虫文件的名称；

确定与所述爬虫文件的名称具有相同名称的JSON文件，从所述确定的JSON文件中获取对应的配置参数；