[发明专利]网站数据抓取方法、装置、设备及其介质在审

申请号：	201810295904.X	申请日：	2018-03-30
公开（公告）号：	CN110555147A	公开（公告）日：	2019-12-10
发明（设计）人：	包喆元	申请（专利权）人：	上海媒科锐奇网络科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955
代理公司：	31300 上海华诚知识产权代理有限公司	代理人：	肖华
地址：	200135 上海市浦***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	抓取目标网站判断结果停止条件网站数据通信领域网页信息爬虫访问
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及通信领域，公开了一种网站数据抓取方法、装置、设备及其介质。本发明中网站数据抓取方法包括：判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值；如果判断结果为超过预定时间阈值，则判断对目标网站数据的抓取是否满足抓取停止条件；如果判断结果为不满足抓取停止条件，则停止当前IP地址对目标网站数据的抓取，并从IP地址列表中获取当前未被使用的IP地址；采用获取到的当前未被使用的IP地址访问目标网站，以抓取目标网站数据；如果判断结果为满足抓取停止条件，则停止对目标网站的访问。本发明可有效避免IP地址被确定为爬虫IP地址而被禁止获取网页信息。

技术领域

本发明涉及通信领域，特别涉及一种网站数据抓取方法、装置、设备及其介质。

背景技术

随着在线购物的快速发展，出现了越来越多的购物网站，为了对这些购物网站上的商品进行综合分析，比如比价等，需要采用网络爬虫从这些购物网站上获取信息。但是，一般的网站都具有反爬虫机制，限制这些信息的获取。

发明内容

本发明的目的在于提供一种网站数据抓取方法、装置、设备及其介质，可有效避免IP地址被确定为爬虫IP地址而被禁止获取网页信息。

为解决上述技术问题，本发明的实施方式公开了一种网站数据抓取方法，包括：

判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值；

如果判断结果为超过预定时间阈值，则判断对目标网站数据的抓取是否满足抓取停止条件；

如果判断结果为不满足抓取停止条件，则停止当前IP地址对目标网站数据的抓取，并从IP地址列表中获取当前未被使用的IP地址；采用获取到的当前未被使用的IP地址访问目标网站，以抓取目标网站数据；

如果判断结果为满足抓取停止条件，则停止对目标网站的访问。

在一示范例中，抓取目标网站数据包括：