[发明专利]网站数据抓取方法、装置、设备及其介质在审
申请号: | 201810295904.X | 申请日: | 2018-03-30 |
公开(公告)号: | CN110555147A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 包喆元 | 申请(专利权)人: | 上海媒科锐奇网络科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 31300 上海华诚知识产权代理有限公司 | 代理人: | 肖华 |
地址: | 200135 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及通信领域,公开了一种网站数据抓取方法、装置、设备及其介质。本发明中网站数据抓取方法包括:判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值;如果判断结果为超过预定时间阈值,则判断对目标网站数据的抓取是否满足抓取停止条件;如果判断结果为不满足抓取停止条件,则停止当前IP地址对目标网站数据的抓取,并从IP地址列表中获取当前未被使用的IP地址;采用获取到的当前未被使用的IP地址访问目标网站,以抓取目标网站数据;如果判断结果为满足抓取停止条件,则停止对目标网站的访问。本发明可有效避免IP地址被确定为爬虫IP地址而被禁止获取网页信息。 | ||
搜索关键词: | 抓取 目标网站 判断结果 停止条件 网站数据 通信领域 网页信息 爬虫 访问 | ||
【主权项】:
1.一种网站数据抓取方法,其特征在于,包括:/n判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值;/n如果判断结果为超过预定时间阈值,则判断对目标网站数据的抓取是否满足抓取停止条件;/n如果所述判断结果为不满足抓取停止条件,则停止所述当前IP地址对所述目标网站数据的抓取,并从IP地址列表中获取当前未被使用的IP地址;采用获取到的所述当前未被使用的IP地址访问所述目标网站,以抓取所述目标网站数据;/n如果判断结果为满足抓取停止条件,则停止对所述目标网站的访问。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海媒科锐奇网络科技有限公司,未经上海媒科锐奇网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810295904.X/,转载请声明来源钻瓜专利网。