[发明专利]爬取网站增量资源的方法和装置有效
申请号: | 201510614245.8 | 申请日: | 2015-09-23 |
公开(公告)号: | CN106547803B | 公开(公告)日: | 2019-12-13 |
发明(设计)人: | 崔志伸 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/953;G06F16/9535 |
代理公司: | 11448 北京中强智尚知识产权代理有限公司 | 代理人: | 王书彪;刘艳芬 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种爬取网站增量资源的方法和装置,其中,方法包括:以待爬取网站的目录层级的最顶层对应页面作为当前页面进行爬取,获得属于网站的所有链接;识别该所有链接中的各链接是内容页链接还是目录页链接;针对目录页链接,分别以各目录页链接所指向的目录页的页面作为当前页面,执行对当前页面进行爬取的操作;针对内容页链接,分别爬取未被爬取过的各内容页链接所指向的内容页,获得内容页数据并存储到网站的资源数据中,并在爬取的内容页中包括属于网站的链接时,针对包括的所有链接,执行识别所有链接是内容页链接还是目录页链接的操作。本发明实施例可以获取网站上的全部增量资源,并且提高增量资源的爬取效率。 | ||
搜索关键词: | 网站 增量 资源 方法 装置 | ||
【主权项】:
1.一种爬取网站增量资源的方法,其特征在于,包括:/n以待爬取网站的目录层级的最顶层对应页面作为当前页面,对当前页面进行爬取,获得当前页面中属于所述网站的所有链接;/n识别所述所有链接中的各链接是内容页链接还是目录页链接;/n针对所述所有链接中的目录页链接,分别以各目录页链接所指向的各目录页的页面作为当前页面,执行所述对当前页面进行爬取的操作;/n针对所述所有链接中的内容页链接,分别将各内容页链接与之前爬取获得的所述网站的资源数据中的页面链接进行比对,爬取未被爬取过的内容页链接所指向的内容页,获得内容页数据并存储到所述网站的资源数据中;以及/n响应于所述所指向的内容页中包括属于所述网站的链接时,针对所述包括的属于所述网站的所有链接,执行所述识别所有链接是内容页链接还是目录页链接的操作。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510614245.8/,转载请声明来源钻瓜专利网。