[发明专利]一种基于Scrapy框架的网络数据的采集方法及装置有效
申请号: | 201811444993.6 | 申请日: | 2018-11-29 |
公开(公告)号: | CN109614535B | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 吕婧;辛北军;张岩;刘建华;胡向旭;马宏强 | 申请(专利权)人: | 中电万维信息技术有限责任公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 深圳市科吉华烽知识产权事务所(普通合伙) 44248 | 代理人: | 胡吉科 |
地址: | 730000 甘*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 scrapy 框架 网络 数据 采集 方法 装置 | ||
1.一种基于Scrapy框架的网络数据的采集方法,其特征在于,包括:
基于一代码固定的Item动态类,获取网络采集事件中的采集字段;
获取与每一个所述采集字段对应的字段内容;
存储所述字段内容;
所述获取与每一个所述采集字段对应的字段内容之后,所述方法还包括:
将与每一个所述采集字段对应的字段内容添加至目标数组中;
遍历所述目标数组,将读取的所述目标数组中与每一个所述采集字段对应的字段内容拼接成目标字符串;
所述存储所述字段内容,具体为:
存储包含所述字段内容的所述目标字符串;
所述将与每一个所述采集字段对应的字段内容添加至目标数组中,包括:
采用hxs对象读取所述网络采集事件中每个网站中的页面信息;
通过hxs对象的xpath方法从所述页面信息中提取与每个所述采集字段对应的字段内容;将提取的与每个所述采集字段对应的字段内容添加至目标数组中;
所述遍历所述目标数组,将读取的所述目标数组中与每一个所述采集字段对应的字段内容拼接成目标字符串,包括:
遍历所述目标数组,获取所述目标数组中的与每一个所述采集字段对应的字段内容;
在每一个所述字段内容后添加隔离标识;
将每一个字段内容和对应添加的所述隔离标识拼接形成一个目标字符串。
2.根据权利要求1所述的方法,其特征在于,所述基于一代码固定的Item类,获取网络采集事件中的采集字段之前,所述方法还包括:
定义一代码固定的Item动态类,所述Item动态类包含一通用的采集字段变量,所述采集字段变量指向对应的采集字段对象。
3.根据权利要求1所述的方法,其特征在于,所述基于一代码固定的Item动态类,获取网络采集事件中的采集字段,具体为:
基于一代码固定的Item动态类,循环增加采集域的数量,遍历所述网络采集事件以获取所述采集字段。
4.根据权利要求1所述的方法,其特征在于,所述在每一个所述字段内容后添加隔离标识之前,还包括:
对每一个所述字段内容进行预处理,所述预处理至少包括去除所述字段内容中的特殊字符与空白。
5.一种基于Scrapy框架的网络数据的采集装置,其特征在于,所述装置包括:
字段获取模块,用于基于一代码固定的Item动态类,获取网络采集事件中的采集字段;
内容获取模块,用于获取与每一个所述采集字段对应的字段内容;
存储模块,用于存储所述字段内容;
所述装置还包括,定义模块,用于定义一代码固定的Item动态类,所述Item动态类包含一通用的采集字段变量,所述采集字段变量指向对应的采集字段对象;
所述字段获取模块具体用于:基于一代码固定的Item动态类,循环增加采集域的数量,遍历所述网络采集事件以获取所述采集字段;
所述装置还包括,添加模块,用于将与每一个所述采集字段对应的字段内容添加至目标数组中;
拼接模块,用于遍历所述目标数组,将读取的所述目标数组中与每一个所述采集字段对应的字段内容拼接成目标字符串;
所述存储模块具体用于:
存储包含所述字段内容的所述目标字符串。
6.根据权利要求5所述的装置,其特征在于,所述添加模块具体用于:
采用hxs对象读取所述网络采集事件中每个网站中的页面信息;
通过hxs对象的xpath方法从所述页面信息中提取与每个所述采集字段对应的字段内容;
将提取的与每个所述采集字段对应的字段内容添加至目标数组中。
7.根据权利要求5所述的装置,其特征在于,所述拼接模块具体用于:
遍历所述目标数组,获取所述目标数组中的与每一个所述采集字段对应的字段内容;
在每一个所述字段内容后添加隔离标识;
将每一个字段内容和对应添加的所述隔离标识拼接形成一个目标字符串。
8.根据权利要求5所述的装置,其特征在于,所述拼接模块还用于:
对每一个所述字段内容进行预处理,所述预处理至少包括去除所述字段内容中的特殊字符与空白。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电万维信息技术有限责任公司,未经中电万维信息技术有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811444993.6/1.html,转载请声明来源钻瓜专利网。