[发明专利]一种基于Scrapy的数据采集方法有效

专利信息
申请号: 201910040521.2 申请日: 2019-01-16
公开(公告)号: CN109766488B 公开(公告)日: 2022-09-16
发明(设计)人: 赵蕾 申请(专利权)人: 南京工业职业技术学院
主分类号: G06F16/953 分类号: G06F16/953
代理公司: 南京业腾知识产权代理事务所(特殊普通合伙) 32321 代理人: 董存壁
地址: 210023 江苏省*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 scrapy 数据 采集 方法
【说明书】:

发明涉及一种基于Scrapy的数据采集方法,该方法首先确定需要采集的大数据的来源,其次定性进行数据的获取,然后将样本数据定量,最后基于Scrapy技术进行数据的采集。本发明实现了对海量数据进行采集,使得数据的采集条理清晰,在采集的数据量庞大时不混乱。

技术领域

本发明涉及一种基于Scrapy的数据采集方法,属于数据采集方法技术领域。

背景技术

近年来,随着中国社会的不断发展,社会生产其规模不断扩大,特大互联电网开始形成,系统运行呈现紧密化特征,生产运行管理面临着更多、更复杂的挑战,急需建设更加可靠、稳定、安全的生产系统。数据采集作为社会生产发展的重要组成部分,对社会生产安全、稳定、高效运行发挥着越来越重要的支撑作用。大数据是国家新型战略资源,引来了国内外越来越多的关注。Auther在2011年提出第二经济的概念,由处理器、传感器、执行器以及与其相关的经济活动将构成人们熟知的物理经济(第一经济)之外的第二经济(不是虚拟经济),而大数据是第二经济(second economy)的核心内涵和关键支撑。数据采集服务必须适应互联大电网多应用、大数据量、高实时性和高安全性的特点,优化设计并融合更为先进的技术手段以支撑更大范围内调控业务的统一协调和各类数据的全景监视与分析。传统的数据采集功能主要面向单个应用,存在功能重复、维护复杂、信息交换共享不足等问题;同时,随着系统规模的不断扩大和数据采集表容量的猛增,导致运行维护不便和采集处理能力降低。为此,需要设计相应的技术方案给予解决。

发明内容

本发明所要解决的技术问题是提供一种基于Scrapy的数据采集方法,该方法首先确定需要采集的大数据的来源,其次定性进行数据的获取,然后将样本数据定量,最后基于Scrapy技术进行数据的采集,满足了实际应用的要求。

为解决上述问题,本发明所采取的技术方案如下:

一种基于Scrapy的数据采集方法,包括以下步骤:

步骤1:确定需要采集的大数据的来源

从数据来源来看,社交网络、移动互联网、信息化企业都是海量数据的制造者,按照产生数据的领域进行划分,可分为网络数据、物理世界数据、科研试验数据三类;其中,网络数据是指在网络空间中进行沟通、交流、购物、学习、浏览网站等所产生各种数据;根据用户行为,又可细分为社交行为数据,以SNS网络为基础;购物行为数据,以电子商务平台为基础;搜索行为数据,以搜索引擎为基础等;物理世界数据是指通过智能设备感知和表示获得的数据;一种是基于大型装备的数据采集,如:飞机、汽车、大型农机装备等;另一种是基于传感器的分散数据采集,比如温度、湿度、压力、声音、图像、光、磁、电压等数据;

科研试验数据指在试验过程中产生的海量的、用于科学分析的数据;随着科研信息化的发展,传统科研活动逐渐向以数据为中心科学研究转变,尤其在基因组学、蛋白组学、天体物理学、气象学和脑科学等领域,会产生海量数据;

步骤2:定性获取需采集的数据

可以将不含有数字的信息称之为定性数据,一般不依靠工具设备,只给出需采集的数据的建议;典型的形式即调研考察,通过与被采集用户进行交流等,获取徐采集数据的大致信息,获得调研对象的概貌了解;

步骤3:将所要采集的样本数据定量

样本数据已属于定量数据采集阶段,借助于数据采集工具,采集某一种或几种数据,指导生产或决策,样本数据采集阶段的主要特征是人工参与,借助设备来完成数据的采集工作;

步骤4:基于Scrapy技术进行数据的采集

Scrapy是一种基于网络爬虫的数据采集方法,是由Twisted(一种基于Python的事件驱动的网络架构)改写的、抽取结构化数据的应用框架,同样可以在数据挖掘、信息处理和历史归档等方面应用;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京工业职业技术学院,未经南京工业职业技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910040521.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top