[发明专利]网站数据抓取方法、装置、设备及其介质在审
申请号: | 201810295904.X | 申请日: | 2018-03-30 |
公开(公告)号: | CN110555147A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 包喆元 | 申请(专利权)人: | 上海媒科锐奇网络科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 31300 上海华诚知识产权代理有限公司 | 代理人: | 肖华 |
地址: | 200135 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 目标网站 判断结果 停止条件 网站数据 通信领域 网页信息 爬虫 访问 | ||
本发明涉及通信领域,公开了一种网站数据抓取方法、装置、设备及其介质。本发明中网站数据抓取方法包括:判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值;如果判断结果为超过预定时间阈值,则判断对目标网站数据的抓取是否满足抓取停止条件;如果判断结果为不满足抓取停止条件,则停止当前IP地址对目标网站数据的抓取,并从IP地址列表中获取当前未被使用的IP地址;采用获取到的当前未被使用的IP地址访问目标网站,以抓取目标网站数据;如果判断结果为满足抓取停止条件,则停止对目标网站的访问。本发明可有效避免IP地址被确定为爬虫IP地址而被禁止获取网页信息。
技术领域
本发明涉及通信领域,特别涉及一种网站数据抓取方法、装置、设备及其介质。
背景技术
随着在线购物的快速发展,出现了越来越多的购物网站,为了对这些购物网站上的商品进行综合分析,比如比价等,需要采用网络爬虫从这些购物网站上获取信息。但是,一般的网站都具有反爬虫机制,限制这些信息的获取。
发明内容
本发明的目的在于提供一种网站数据抓取方法、装置、设备及其介质,可有效避免IP地址被确定为爬虫IP地址而被禁止获取网页信息。
为解决上述技术问题,本发明的实施方式公开了一种网站数据抓取方法,包括:
判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值;
如果判断结果为超过预定时间阈值,则判断对目标网站数据的抓取是否满足抓取停止条件;
如果判断结果为不满足抓取停止条件,则停止当前IP地址对目标网站数据的抓取,并从IP地址列表中获取当前未被使用的IP地址;采用获取到的当前未被使用的IP地址访问目标网站,以抓取目标网站数据;
如果判断结果为满足抓取停止条件,则停止对目标网站的访问。
在一示范例中,抓取目标网站数据包括:
对目标网站进行分析,并从DNS服务器获取网页的IP地址,生成抓取任务,并将抓取任务存储到任务队列;
从任务队列中获取抓取任务,抓取目标网站数据,其中,抓取任务包括IP地址、URL地址、抓取深度。
在一示范例中,抓取目标网站数据包括:
配置顶级域名的链接;
运用广度优先搜索算法提取目标网站所有的网页链接;
将所有提取到的网页链接采用哈希链表的方式保存进集合中;
运用数据匹配算法过滤重复的网页链接,提取网页页面内容;
采用模式匹配算法,输入关键词或关键字查找网页页面上的内容。
在一示范例中,目标网站为购物网站。
本发明的实施方式还公开了一种网站数据抓取装置,该装置包括:
第一判断单元,用于判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值;
第二判断单元,判断对目标网站数据的抓取是否满足抓取停止条件;
获取单元,用于停止当前IP地址对目标网站数据的抓取,并从IP地址列表中获取当前未被使用的IP地址;
转换单元,用于采用获取单元获取到的当前未被使用的IP地址访问目标网站;
抓取单元,用于抓取目标网站数据;
停止单元,用于停止对目标网站的访问。
在一示范例中,抓取网站通过以下方式抓取目标网站数据:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海媒科锐奇网络科技有限公司,未经上海媒科锐奇网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810295904.X/2.html,转载请声明来源钻瓜专利网。