[发明专利]一种无需人工参与的历史数据追溯爬取方法及终端有效
申请号: | 202110147690.3 | 申请日: | 2019-03-14 |
公开(公告)号: | CN112905866B | 公开(公告)日: | 2022-06-07 |
发明(设计)人: | 刘德建;林琛 | 申请(专利权)人: | 福建省天奕网络科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 福州市博深专利事务所(普通合伙) 35214 | 代理人: | 唐燕玲 |
地址: | 350212 福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 无需 人工 参与 历史数据 追溯 方法 终端 | ||
1.一种无需人工参与的历史数据追溯爬取方法,其特征在于,包括以下步骤:
S1:设定历史数据追溯方向,以及每一次爬取历史数据量对应的第一阈值;
S2:根据历史数据追溯方向以及第一阈值,获取待多次爬取的历史数据分别对应的多个第一URL;将多个第一URL进行排序,得到第一序列;
在排序过程中,若历史数据追溯方向为正向,按照从远至近的时间顺序对所有的第一URL进行排序,得到第一序列;
若历史数据追溯方向为负,按照从近至远的时间顺序对所有的第一URL进行排序,得到第一序列;
S3:每隔预设时间依次爬取第一序列中的每一个第一URL对应网页上的数据;
所述S3具体为:
S31:获取第一序列中排序在最前的第一URL,得到待爬取数据对应的第二URL;预设变量r,所述变量r的初始值为1;
S32:爬取第二URL对应网页上的数据;
S33:若第二URL对应网页上的数据均获取完毕,则将预设的第r个标识值置为预设第一值,并将第r个标识值以及第二URL存储缓存中,每一个标识值的初始值均为预设第二值;
S34:令r=r+1;
S35:在预设第三时间获取缓存中最大的r值,得到第三值;所述预设第三时间=预设第四时间+预设时间;所述预设第四时间为开始爬取第二URL对应网页上的数据对应的时间点;
S36:将第三值加一,得到第四值;
S37:根据所述第四值,获取第一序列中排序为第四值对应的第一URL,得到第三URL,将第二URL更新为所述第三URL;
S38:重复执行步骤S32-S37,直至接收到爬取数据结束指令或所有的历史数据均爬取完毕为止。
2.根据权利要求1所述的一种无需人工参与的历史数据追溯爬取方法,其特征在于,所述S1具体为:
获取执行追溯历史数据对应的任务起始时间,得到第一时间;
获取所需追溯的历史数据的时间起点值,得到第二时间;
获取追溯历史数据的时间方向,得到历史数据追溯方向;
获取每一次连续追溯历史数据的天数,即为所述第一阈值。
3.根据权利要求2所述的一种无需人工参与的历史数据追溯爬取方法,其特征在于,所述根据历史数据追溯方向以及第一阈值,获取待多次爬取的历史数据分别对应的多个第一URL具体为:
根据第二时间、历史数据追溯方向以及第一阈值,获取待多次爬取的历史数据分别对应的多个第一URL;
所述第一URL包括多个第一子URL,第一子URL的数量与所述第一阈值相等。
4.根据权利要求3所述的一种无需人工参与的历史数据追溯爬取方法,其特征在于,所述S32具体为:
根据第二URL,得到多个第二子URL;
根据所述历史数据追溯方向以及每一个第二子URL对应的历史数据的时间,依次爬取每一个第二子URL对应网页上的数据;
所述S33具体为:
当一第二子URL对应网页上的数据获取完毕时,将该第二子URL存储于缓存中;
判断所有的第二子URL对应网页上的数据是否均爬取完毕,若是,则将预设的第r个标识值置为预设第一值,并将第r个标识值存储在缓存中,所述r的初始值为1,每一个标识值的初始值为预设第二值。
5.根据权利要求4所述的一种无需人工参与的历史数据追溯爬取方法,其特征在于,在每一次爬取历史数据前,判断上一次爬取历史数据是否存在中断情况;
若是,则获取上一次爬取历史数据对应的第一URL,得到第四URL;
根据第四URL,得到多个的第四子URL;
根据所有的第四子URL,获取缓存中未存储的第四子URL,得到一个以上的第五子URL;
根据一个以上的第五子URL,得到第五URL,将第二URL更新为所述第五URL;
执行步骤S38。
6.一种无需人工参与的历史数据追溯爬取终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
S1:设定历史数据追溯方向,以及每一次爬取历史数据量对应的第一阈值;
S2:根据历史数据追溯方向以及第一阈值,获取待多次爬取的历史数据分别对应的多个第一URL;将多个第一URL进行排序,得到第一序列;
在排序过程中,若历史数据追溯方向为正向,按照从远至近的时间顺序对所有的第一URL进行排序,得到第一序列;
若历史数据追溯方向为负向,按照从近至远的时间顺序对所有的第一URL进行排序,得到第一序列;
S3:每隔预设时间依次爬取第一序列中的每一个第一URL对应网页上的数据;
所述S3具体为:
S31:获取第一序列中排序在最前的第一URL,得到待爬取数据对应的第二URL;预设变量r,所述变量r的初始值为1;
S32:爬取第二URL对应网页上的数据;
S33:若第二URL对应网页上的数据均获取完毕,则将预设的第r个标识值置为预设第一值,并将第r个标识值以及第二URL存储在缓存中,每一个标识值的初始值均为预设第二值;
S34:令r=r+1;
S35:在预设第三时间获取缓存中最大的r值,得到第三值;所述预设第三时间=预设第四时间+预设时间;所述预设第四时间为开始爬取第二URL对应网页上的数据对应的时间点;
S36:将第三值加一,得到第四值;
S37:根据所述第四值,获取第一序列中排序为第四值对应的第一URL,得到第三URL,将第二URL更新为所述第三URL;
S38:重复执行步骤S32-S37,直至接收到爬取数据结束指令或所有的历史数据均爬取完毕为止。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建省天奕网络科技有限公司,未经福建省天奕网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110147690.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种海上风电桩安装装置
- 下一篇:一种涂料分散剂的制备方法以及涂料分散剂