[发明专利]一种用于网络爬虫系统的网页内容抓取方法及装置有效
申请号: | 201210140751.4 | 申请日: | 2012-05-08 |
公开(公告)号: | CN103389983A | 公开(公告)日: | 2013-11-13 |
发明(设计)人: | 孙杰;蔡同利 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 网络 爬虫 系统 网页 内容 抓取 方法 装置 | ||
技术领域
本发明涉及计算机、互联网技术领域,尤其涉及一种用于网络爬虫系统的网页内容抓取方法及装置。
背景技术
网络爬虫(又被称为网页蜘蛛,网络机器人等),是一种按照一定的规则自动的抓取互联网上的网页的程序或者脚本,它们的行为被称为网页抓取或蜘蛛爬行。
由于网络上的HTML文档使用超链接连接了起来,就像组成了一张网,因此,网络爬虫可以顺着这张网爬行,每到一个网页就利用抓取程序将这个网页抓下来,并将其中的超链接抽取出来,作为进一步爬行的线索。
一般来说,网络爬虫都是从一组要访问的URL(统一资源定位符,或简称网址)链接开始,可以称这些URL为种子。爬虫访问这些链接,并辨认出这些页面中的所有超链接,然后将这些超链接添加到一个URL列表中,再按照一定的策略反复访问这些列表中的URL链接。
然而,现有的网络爬虫系统经常会遇到的一个问题是,对于一些比较大的网站,无法在较短的时间内将其内容全部抓取完,这是因为网络爬虫在爬取网页的过程中,需要遵守一定的礼仪规范,不能对同一个网站进行过于频繁的抓取,否则会给对方网站的服务器造成过大的压力,严重时可能会导致该网站不得不屏蔽该网络爬虫,禁止其抓取行为。
抓取的礼仪规范在业界是有标准的,具体体现在robots.txt中,如果对方网站的robots.txt中包含crawl delay:value这一项,则爬虫对网站连续两次访问请求的时间间隔必须大于value的值。如果对方网站的robots.txt中不包含这一项或者根本就没有robots.txt,那么作为网络爬虫也应该间隔一定的时间发起下一次请求。
但是有一些网站的规模非常大,页面数量是亿甚至是十亿的量级,每天新增的页面数也非常大,如果严格遵守抓取礼仪的话,会使得这些大网站在一定的时间内无法被抓取完。
为了解决这个问题,现有的网络爬虫的抓取策略都是把规模很大的网站连续两次抓取的时间间隔设置到ms级别,并且在此基础上同时保持很多个连接,但是这不仅给对方网站的带来了很大的压力,而且也存在被对方网站封锁的危险。
发明内容
本申请所要解决的技术问题在于提供一种用于网络爬虫系统的网页内容抓取方法及装置,以克服现有技术中无法在遵守抓取礼仪规范的前提下短时间内将大型网站的内容全部抓取完的问题。
为解决上述技术问题,本申请提供一种用于网络爬虫系统的网页内容抓取方法,首先构建一IP地址数据库,记录有预设网站的域名及与该域名对应的多个IP地址;然后通过查询所述IP地址数据库,将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。
本发明进而还提供一种用于网络爬虫系统的网页内容抓取装置,包括:
数据库模块,用于通过构建一IP地址数据库,记录预设网站的域名及与该域名对应的多个IP地址;
替换模块,用于通过查询所述IP地址数据库,将所述网络爬虫系统欲执行抓取的目标网页地址URL中的域名替换为一个与该域名对应的IP地址后执行抓取。
本申请的实施例充分利用了大网站的布局特点,通过域名系统DNS查询工具,获取到各个大网站分布在全国各地的CDN(内容分发网络)结点的IP地址,或者其提供轮询服务的多个IP地址,然后把这些IP地址对应的服务器作为独立的服务器进行抓取,这样可以同时分别对大网站的内容进行抓取,而又不会对某一个单独的服务器造成很大的压力,从而提高了对大网站的抓取效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请实施例所述的URL规则示意图。
图2为根据本申请实施例所述的用于网络爬虫系统的网页内容抓取方法流程图。
图3为根据本申请另一实施例所述的用于网络爬虫系统的网页内容抓取方法流程图。
图4为根据本申请实施例所述的用于网络爬虫系统的网页内容抓取装置示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210140751.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:超声风速温度仪局域网络系统及测量方法
- 下一篇:一种家居接口模块