[发明专利]基于网络爬虫和数据转移技术的数据采集系统及方法在审
申请号: | 201810027341.6 | 申请日: | 2018-01-11 |
公开(公告)号: | CN108133041A | 公开(公告)日: | 2018-06-08 |
发明(设计)人: | 杨岸桢;李东旭;吴新勇;邱吉刚 | 申请(专利权)人: | 四川九洲电器集团有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 王记明 |
地址: | 621000*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络爬虫 数据采集系统 数据转移技术 开发 离线数据采集 爬虫 采集系统 爬虫软件 使用效率 数据采集 数据转移 统一调度 系统集成 业务数据 自动选择 一站式 采集 灵活 配置 管理 | ||
1.基于网络爬虫和数据转移技术的数据采集系统,其特征在于,包括任务管理模块、数据采集模块和数据处理模块;数据采集模块集成了n个爬行组件和数据转移工具,n个爬行组件用于在线数据的采集,数据转移工具用于离线数据的处理和转移,n个爬行组件和数据转移工具通过统一的接口将采集到的数据传输到上层数据处理模块进行进一步处理;任务管理模块通过服务接口与前端系统通信,接收来自前端发送的采集任务,并对采集任务进行统一的管理和调度,其中,n>=1。
2.根据权利要求1所述的数据采集系统,其特征在于,所述数据处理模块包括日志收集系统、分布式发布订阅消息系统、分布式文件系统及数据仓库系统。
3.根据权利要求2所述的数据采集系统,其特征在于,离线数据通过序列化存储接口直接存储在分布式文件系统中,在线数据通过序列化存储接口发送到日志收集系统之中,日志收集系统中的数据经过分布式发布订阅消息系统进行缓存适配,经过适配后的数据,进行初步数据仓库系统清洗,为后续终端系统提供结构化的数据支撑。
4.根据权利要求1所述的数据采集系统,其特征在于,所述任务管理模块包括本地目录监控单元、数据库、任务队列单元和任务监控单元。
5.根据权利要求4所述的数据采集系统,其特征在于,任务管理模块将接收到的采集任务保存在数据库中,用于用户后期的查询、修改操作;同时,将待执行的采集任务压入任务队列单元中,待用户发出启动采集的命令时,开始进行实际的采集工作。
6.基于网络爬虫和数据转移技术的数据采集方法,其特征在于,该方法应用于权利要求1-5任一项所述的数据采集系统中,包括以下步骤:步骤一、对采集任务参数进行解析;步骤二、按照具体类型分发到不同的采集线程启动实际的采集业务;步骤三、记录并根据具体采集线程上报的情况更新当前任务状态,循环监听,直到用户终止所有采集业务。
7.根据权利要求6所述的数据采集方法,其特征在于,具体包括以下步骤:
S1、启动服务;
S2、查询数据库,将状态为“未执行”的任务加载到任务队列中;
S3、任务的运行状态循环监控,当系统中已有任务正在运行时,系统处于循环等待状态;
S4、待已有任务执行完毕后,检查队列是否有任务,如果队列为空,继续等待;
S5、一旦队列中有待执行的任务时,从中取出队列头部的任务;
S6、对取出的任务进行参数提取和解析,读取任务的类型信息;
S7、当当前任务的类型为离线类型时,管理模块将该任务分发到离线采集线程,并启动实际的采集业务,采用数据转移工具进行离线数据的处理和转移,并将转移的离线数据通过序列化存储接口直接存储在分布式文件系统中;
S8、当当前任务的类型为在线类型时,管理模块将该任务分发到在线采集线程,并启动实际的采集业务,采用网络爬虫进行在线数据的采集,并将采集到的在线数据通过序列化存储接口发送到日志收集系统中;日志收集系统中的数据经过分布式发布订阅消息系统进行缓存适配;经过适配后的数据,进行初步数据仓库系统清洗为后续终端系统提供结构化的数据支撑;
S9、当前任务结束,并更新结束标志和任务状态;
S10、循环执行步骤S3~S9进行下一条任务的执行,直到用户终止所有采集业务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川九洲电器集团有限责任公司,未经四川九洲电器集团有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810027341.6/1.html,转载请声明来源钻瓜专利网。