[发明专利]一种无需人工参与的历史数据追溯爬取方法及终端有效
申请号: | 202110147690.3 | 申请日: | 2019-03-14 |
公开(公告)号: | CN112905866B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 刘德建;林琛 | 申请(专利权)人: | 福建省天奕网络科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 唐燕玲 |
地址: | 350212 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无需 人工 参与 历史数据 追溯 方法 终端 | ||
本发明提供了无需人工参与的历史数据追溯爬取及终端,其方法包括以下步骤:S1:设定历史数据追溯方向,以及每一次爬取历史数据量对应的第一阈值;S2:根据历史数据追溯方向以及第一阈值,获取待多次爬取的历史数据分别对应的多个第一URL;将多个第一URL进行排序,得到第一序列;S3:每隔预设时间依次爬取第一序列中的每一个第一URL对应网页上的数据。本发明提供了一种无需人工参与的历史数据追溯爬取方法及终端,在追溯爬取历史数据的过程中无需人工参与,能够提高历史数据爬取的效率。
本案是以申请号为201910191973.0,申请日为2019年3月14日,名称为《一种历史数据的追溯爬取方法及终端》的专利申请为母案的分案申请。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种无需人工参与的历史数据追溯爬取方法及终端。
背景技术
历史数据,是跟时间息息相关的一类数据,这类数据在内容上或许没有任何相关性,但它们产生的时间通常是线性的。
在互联网系统开发过程中,难免会有与海量的历史数据打交道的需求;例如,在爬虫项目中,有时需要获取目标站点近几年的历史数据,如果请求一个历史页面链接后还要进行大量的二级链接请求,或中间处理流程较多,可能需要耗费大量的时间,这样,倘若要让系统从启动后一直运行到任务结束,或许需要持续几天、几周、甚至几个月的时间;在持续如此漫长的过程中,难免会遇到系统主机临时关闭、任务进程意外中断等非预期状况,给任务的持续性和完整性带来很大的困扰;于是,通常需要将这类任务分段执行,分段则要求通过人工介入的方式,根据上次进度的时间节点,对该段任务的目标页面的时间请求参数重新配置,从而实现任务衔接执行,整个过程就会显得过于繁琐、不灵活。若任务需要全年执行,则每天都要人工配置一次,极大地耗费人力成本。
发明内容
本发明所要解决的技术问题是:本发明提供了一种无需人工参与的历史数据追溯爬取方法及终端,在追溯爬取历史数据的过程中无需人工参与,能够提高历史数据爬取的效率。
为了解决上述技术问题,本发明提供了一种无需人工参与的历史数据追溯爬取方法,包括以下步骤:
S1:设定历史数据追溯方向,以及每一次爬取历史数据量对应的第一阈值;
S2:根据历史数据追溯方向以及第一阈值,获取待多次爬取的历史数据分别对应的多个第一URL;将多个第一URL进行排序,得到第一序列;
S3:每隔预设时间依次爬取第一序列中的每一个第一URL对应网页上的数据。
本发明提供了一种无需人工参与的历史数据追溯爬取终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
S1:设定历史数据追溯方向,以及每一次爬取历史数据量对应的第一阈值;
S2:根据历史数据追溯方向以及第一阈值,获取待多次爬取的历史数据分别对应的多个第一URL;将多个第一URL进行排序,得到第一序列;
S3:每隔预设时间依次爬取第一序列中的每一个第一URL对应网页上的数据。
本发明的有益效果为:
本发明提供的一种无需人工参与的历史数据追溯爬取方法及终端,在历史数据的追溯爬取过程,只需要根据历史数据追溯方向及第一阈值,即可得到待多次爬取的历史数据分别对应的多个第一URL,并将其进行排序,得到第一序列,上述追溯爬取历史数据过程中,只需要配置一次,即可得到第一序列,而后按照预设时间依次爬取第一序列中的每一个第一URL对应网页上的数据,可得到待爬取的所有历史数据,上述过程无需要人工参与,能够提高历史数据追溯爬取的效率。
附图说明
图1为根据本发明实施例的一种无需人工参与的历史数据追溯爬取方法的主要步骤示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建省天奕网络科技有限公司,未经福建省天奕网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110147690.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种海上风电桩安装装置
- 下一篇:一种涂料分散剂的制备方法以及涂料分散剂