[发明专利]网站数据抓取方法、装置、设备及其介质在审
申请号: | 201810295904.X | 申请日: | 2018-03-30 |
公开(公告)号: | CN110555147A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 包喆元 | 申请(专利权)人: | 上海媒科锐奇网络科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 31300 上海华诚知识产权代理有限公司 | 代理人: | 肖华 |
地址: | 200135 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 抓取 目标网站 判断结果 停止条件 网站数据 通信领域 网页信息 爬虫 访问 | ||
1.一种网站数据抓取方法,其特征在于,包括:
判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值;
如果判断结果为超过预定时间阈值,则判断对目标网站数据的抓取是否满足抓取停止条件;
如果所述判断结果为不满足抓取停止条件,则停止所述当前IP地址对所述目标网站数据的抓取,并从IP地址列表中获取当前未被使用的IP地址;采用获取到的所述当前未被使用的IP地址访问所述目标网站,以抓取所述目标网站数据;
如果判断结果为满足抓取停止条件,则停止对所述目标网站的访问。
2.根据权利要求1所述的网站数据抓取方法,其特征在于,抓取所述目标网站数据包括:
对所述目标网站进行分析,并从DNS服务器获取网页的IP地址,生成抓取任务,并将所述抓取任务存储到任务队列;
从所述任务队列中获取所述抓取任务,抓取所述目标网站数据,其中,所述抓取任务包括IP地址、URL地址、抓取深度。
3.根据权利要求1所述的网站数据抓取方法,其特征在于,抓取所述目标网站数据包括:
配置顶级域名的链接;
运用广度优先搜索算法提取所述目标网站所有的网页链接;
将所有提取到的网页链接采用哈希链表的方式保存进集合中;
运用数据匹配算法过滤重复的网页链接,提取网页页面内容;
采用模式匹配算法,输入关键词或关键字查找网页页面上的内容。
4.根据权利要求1至3中任一项所述的网站数据抓取方法,其特征在于,所述目标网站为购物网站。
5.一种网站数据抓取装置,其特征在于,包括:
第一判断单元,用于判断抓取目标网站数据所使用的当前IP地址的使用时间是否超过预定时间阈值;
第二判断单元,判断对目标网站数据的抓取是否满足抓取停止条件;
获取单元,用于停止所述当前IP地址对所述目标网站数据的抓取,并从IP地址列表中获取当前未被使用的IP地址;
转换单元,用于采用所述获取单元获取到的所述当前未被使用的IP地址访问所述目标网站;
抓取单元,用于抓取所述目标网站数据;
停止单元,用于停止对所述目标网站的访问。
6.根据权利要求5所述的网站数据抓取装置,其特征在于,所述抓取网站通过以下方式抓取所述目标网站数据:
对所述目标网站进行分析,并从DNS服务器获取网页的IP地址,生成抓取任务,并将所述抓取任务存储到任务队列;
从所述任务队列中获取所述抓取任务,抓取所述目标网站数据,其中,所述抓取任务包括IP地址、URL地址、抓取深度。
7.根据权利要求5所述的网站数据抓取装置,其特征在于,所述抓取网站通过以下方式抓取所述目标网站数据:
配置顶级域名的链接;
运用广度优先搜索算法提取所述目标网站所有的网页链接;
将所有提取到的网页链接采用哈希链表的方式保存进集合中;
运用数据匹配算法过滤重复的网页链接,提取网页页面内容;
采用模式匹配算法,输入关键词或关键字查找网页页面上的内容。
8.根据权利要求5至7中任一项所述的网站数据抓取装置,其特征在于,所述目标网站为购物网站。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海媒科锐奇网络科技有限公司,未经上海媒科锐奇网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810295904.X/1.html,转载请声明来源钻瓜专利网。