[发明专利]一种网页抓取周期调整方法和装置有效
申请号: | 201310056627.4 | 申请日: | 2013-02-22 |
公开(公告)号: | CN103092999A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 崔世起;杨青 | 申请(专利权)人: | 人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提供了一种网页抓取周期调整方法和装置,该方法获取网络爬虫当前抓取的目标网页中所包含的链接集合以及该链接集合中的链接所指向的信息页;确定该链接集合中属于所述目标网页中新产生的链接,并将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对目标网页的抓取周期。该方法可以提高确定出的网页抓取周期的精度,减少资源浪费。 | ||
搜索关键词: | 一种 网页 抓取 周期 调整 方法 装置 | ||
【主权项】:
一种网页抓取周期调整方法,其特征在于,包括:获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页;确定所述链接集合中属于所述目标网页中新产生的链接;判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310056627.4/,转载请声明来源钻瓜专利网。