[发明专利]数据处理方法及装置在审
申请号: | 201710072030.7 | 申请日: | 2017-02-09 |
公开(公告)号: | CN107092632A | 公开(公告)日: | 2017-08-25 |
发明(设计)人: | 李源 | 申请(专利权)人: | 北京小度信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/48 |
代理公司: | 北京太合九思知识产权代理有限公司11610 | 代理人: | 刘戈 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法及装置。
背景技术
近年来,随着网络信息爆炸式的增长,如何有效的在网络中获取有用的信息已变得极其困难。目前,爬虫技术在丰富公司数据、获取多元数据中扮演着重要的作用。同时爬虫技术也是数据挖掘中不可缺少的工具。
目前,市面上的爬虫工具较多,例如:Scrapy、Larbin、Heritrix等等。其中,Scrapy是一个web(网页)抓取框架,提供了多种类型爬虫的基类,可以抓取web站点,并从页面中提取结构化的数据。Larbin是一个开源的网络爬虫工具,能够记录web页面的URL(Uniform Resource Locator,统一资源定位符)并进行抓取,保存原始网页,可作为通用搜索引擎的信息来源。Heritrix是一个开源、可拓展的web爬虫,以递归的方式对web页面进行深度优先遍历。
上述各爬虫工具都是供开发人员使用的爬虫框架。专业的开发人员需对爬虫框架进行二次开发,以得到能够从目标web站点获取到所需数据的爬虫软件;然后执行该爬虫软件以获取所需的数据。
发明内容
现有,爬虫框架为使用者提供了一些API(Application Program Interface,应用程序接口)。使用者可根据这些API,对爬虫框架进行二次开发,以得到能够从目标web站点获取到所需数据的爬虫软件。对于企业中专注于业务的数据分析人员来说,学习编码的成本太高,且使用起来比较困难。另外,二次开发人员需针对不同的获取需求设计和编写不同的爬虫软件,开发成本高,且使用不够便捷。因此,需要提供一种开发难度低、使用更加便捷的技术方案。
于是,在本发明的一个实施例中,提供了一种数据处理方法。该方法包括:获取有关网络数据处理规则的配置信息;根据所述配置信息,生成配置文件;从网络侧获取数据任务指示站点的目标网页;根据所述配置文件,从所述目标网页中获取需求数据。本实施例提供的技术方案通过获取到的配置信息生成相应的配置文件,在进行网络侧数据获取过程中即以该配置文件的方式遍历网页,进而从网络中获取到所需的数据,简化了爬虫类工具的二次开发难度,使用起来更加便捷。
可选的,上述的方法中,所述从网络侧获取数据任务指示站点的目标网页,包括:从数据任务队列中,获取任务调度系统分配的所述数据任务;从代理池中选出一个目标代理,以通过所述目标代理向所述数据任务指定的站点发送请求;接收所述目标代理反馈的所述目标网页。代理池中提供了大量的代理IP(代理服务器),当目标代理发生代理失败(即反馈错误信息)时,能从代理池中选择其他代理以重新获取目标网页,避免出现无法获取目标网页的情况出现。
可选的,上述从网络侧获取数据任务指示站点的目标网页还包括:若所述目标代理反馈的是错误信息,则从所述代理池中重新选择一个代理作为所述目标代理。
可选的,上述的方法还可包括:若所述目标代理反馈的是错误信息,则将所述目标代理的代理标识位加预设值;若所述目标代理的代理标识位的数值大于阈值,则将所述目标代理从所述代理池中移除;若所述目标代理的代理标识位的数值小于阈值,则将所述目标代理移动到所述代理池的队列队尾。采用上述方式对代理池进行维护,可使得代理池中的代理IP都充分可用,有助于提高目标网页的获取效率。
可选的,上述的方法还可包括:若所述数据任务被中断,则将中断时剩余未完成的任务记为新任务;将所述新任务添加到所述数据任务队列中。因为数据任务队列中保存有上次未处理完成的任务,后续调度时会继续从数据任务队列中分配任务给相应的数据获取节点,所以不会出现重复处理的情况。
可选的,上述获取有关网络数据处理规则的配置信息,包括:展现配置界面;获取所述配置界面上输入的有关网络数据处理规则的所述配置信息。为爬虫类软件(亦或数据爬虫程序)提供二次开发配置界面,二次开发人员或非程序开发人员只需通过配置界面上的提示输入需求信息即可完成配置文件的设置,整体降低了数据爬取工具的二次开发的难度,使用起来更加便捷。
可选的,所述配置信息可包括:数据位置定位规则信息、数据输出格式信息和数据清洗规则信息中的一种或多种;相应的,上述的根据所述配置信息,生成配置文件,包括:根据所述数据位置定位规则信息,生成数据解析配置子文件;和/或根据所述数据输出格式信息,生成数据输出格式配置子文件;和/或根据所述清洗规则信息,生成数据清洗配置子文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小度信息科技有限公司,未经北京小度信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710072030.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种手持式钢管专用去毛刺装置
- 下一篇:一种多齿轮统一加工设备