[发明专利]一种网页抓取周期调整方法和装置有效
申请号: | 201310056627.4 | 申请日: | 2013-02-22 |
公开(公告)号: | CN103092999A | 公开(公告)日: | 2013-05-08 |
发明(设计)人: | 崔世起;杨青 | 申请(专利权)人: | 人民搜索网络股份公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 抓取 周期 调整 方法 装置 | ||
技术领域
本申请涉及网络信息处理技术领域,特别涉及一种网页抓取周期调整方法和装置。
背景技术
网络爬虫是一个自动提取网页的程序,是搜索引擎的重要组成部分。通过网络爬虫对网页的网页信息进行抓取,并对抓取的网页信息进行分析,判断该网页中是否产生新的链接以确定该网页中是否产生新的内容页(即链接所指向的实际页面内容),从而可以监测到网页的变化。
一般情况下,网络爬虫是按照目标网页的抓取周期,以固定的时间间隔来抓取该目标网页的网页信息,但是如果网络爬虫对该目标网页的抓取频率过低,则很可能会错过该目标网页中新产生的内容页,无法获取到相应的有用信息;如果抓取频率过高,则可能会导致资源的浪费。因此,需要根据网页的更新频率来调整网络爬虫对该网页的抓取周期,以减少错过有用信息,并避免资源浪费。在调整某网页的抓取周期时,一般是根据指定时间内该网络爬虫连续若干次抓取到的网页信息,确定在该指定时间内该网页中新增的链接数量或比例等,进而根据新增的链接数量或比例来调整抓取该目标网页的周期。
然而对于某一个目标网页而言,某些情况下虽然该目标网页中产生了新的链接,但如果该新的链接所指向的内容页是与该目标网页没有任何关联关系的页面,那么网络爬虫从该新的链接所指向的内容页中并不能获取到与该目标网页相关的有用信息。也就是说,当目标网页中的新产生的链接仅仅是指向与该目标网页展现的内容信息毫无关联的内容页时,此时网络爬虫抓取该目标网页时,并不会获取到新的有用信息。因此,在这种情况下,即使目标网页中新产生了链接,并不能从实际上反映出该目标网页发生了更新。这样,如果仅以目标网页中新增的链接的数量和比例来调整抓取该目标网页的周期,则可能确定出与该目标网页的实际更新频率不符的抓取周期,导致抓取频率过高,造成资源浪费。
发明内容
本申请提供一种网页抓取周期调整方法和装置,以提高确定出的网页抓取周期的精度,减少资源浪费。
本申请还提供了一种网页抓取周期调整装置,用以保证上述方法在实际中的实现及应用。
为了解决上述问题,本申请公开了一种网页抓取周期调整方法,包括:
获取网络爬虫当前抓取的目标网页中所包含的链接集合以及所述链接集合中的链接所指向的信息页;
确定所述链接集合中属于所述目标网页中新产生的链接;
判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;
将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接;
依据指定时间内在不同抓取时刻抓取到的所述目标网页中存在的待分析链接,调整对所述目标网页的抓取周期。
优选的,所述目标网页为Hub网页。
优选的,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同之前,还包括:
依据预置的广告链接库,确定出所述链接集合中属于广告链接的链接;
所述将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接,包括:
从所述新产生的链接中提取出不属于广告链接的链接组成的第一子链接集合;
所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同,包括:
判断是否所述第一子链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,且所指向的信息页的面包屑导航中的网页地址与所述目标网页的第一网页地址相同;
所述将所述新产生的链接中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接,包括:
将所述第一子链接集合中,所属网站与所述第一网站相同且所指向的信息页的面包屑导航中的网页地址与所述第一网页地址相同的链接作为待分析链接。
优选的,所述判断是否所述链接集合中的链接所属的网站与所述目标网页所属的第一网站相同,包括:
判断所述链接集合中的链接的域名与所述第一网页地址的域名是否相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于人民搜索网络股份公司,未经人民搜索网络股份公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310056627.4/2.html,转载请声明来源钻瓜专利网。