[发明专利]一种基于网页爬取的爬虫技术在审
申请号: | 201310040090.2 | 申请日: | 2013-02-01 |
公开(公告)号: | CN103970788A | 公开(公告)日: | 2014-08-06 |
发明(设计)人: | 尹科 | 申请(专利权)人: | 北京英富森信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100190 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网页 爬虫 技术 | ||
技术领域
本发明涉及互联网信息采集技术领域,具体涉及一种用于档案馆、图书馆、文化馆等领域中互联网信息采集的一种基于网页爬取的爬虫技术。
背景技术
随着网络的迅速发展,万维网成为大量信息的载体。搜索引擎作为一个辅助人们检索信息的工具,成为用户访问万维网的入口和指南,目前的通用搜索引擎在信息获取方面均存在着一定的局限性,即无法提供服务定制,如不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的内容。商业搜索引擎由于面向社会提供服务,追求大而全,无法按用户的需求进行定制,反馈给用户的信息过多,噪声太大难以人工处理。
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成,传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,并保存该网页信息。在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件,如层数、连接数等。
要在搜索引擎中尽可能地找到用户所需信息,就要求搜索引擎索引尽可能多的网页。采用分布式技术在尽可能短的时间内搜集尽可能多的网页,到目前为止,分布式网络爬虫系统已经有了不少应用。
网络爬虫的主过程由控制器、解析器、资源库组成。控制器是网络爬虫的中央控制器,主要是负责根据传过来的URL链接,分配一线程,然后启动线程调用爬虫爬取网页的过程。解析器是负责网络爬虫(从web中发现,下载以及存储内容)的主要部分,主要是下载网页,进行页面文本的处理,如过滤功能,抽取特殊HTML标签的功能,分析数据功能,将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成。资源库是用来存放网页中下载到的网页资源数据,一般都采用大型的数据库存储,并对其建立索引。
发明内容
本发明的目的是为了克服现有技术中的缺点而提供一种基于网页爬取的爬虫技术,旨在解决目前通用搜索引擎不能基于用户定制提供搜索服务,所返回的搜索结果包含大量用户不关心的内容不能满足用户需要的技术问题。
本发明是这样实现的,一种基于网页爬取的爬虫技术,初始化URL链接地址后,包括以下步骤:
1)均衡分配爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址;
2)判断所述URL链接地址是否存在,是则停止爬取,否则,爬取所述URL链接地址放入完成队列;
3)对放入所述完成队列的所述URL链接地址对应的网页进行提取;
4)对所述提取的网页中的URL链接地址过滤,留取有效URL链接地址写入运行队列,返回步骤1)重复以上步骤。
当所述排列在队首的URL长度超过预设阈值时,所述爬虫线程停止对所述对排列在队首的URL进行爬取。
所述爬虫线程从运行队列爬取排列在队首的URL时,采取广度优先法进行爬取,即先从所述URL的起始网页开始,抓取所述起始网页中所有链接的网页,然后从抓取的所述所有链接的网页中再选择一个网页,抓取所述选择的网页中的所有链接页面,直至所述所有链接的网页中所有网页中的所有链接页面全部抓取完毕。
所述步骤2)中,所述爬取所述URL链接地址的具体步骤如下:
爬虫线程开启后,首先由中心爬虫将待爬取的起始页URL链接地址读取到爬虫缓存,然后根据爬取优先顺序对放入到所述爬虫缓存中所述起始页URL链接地址中的内容进行抓取、解析、抽取所述内容中的详细URL链接地址放入URL存储容器中,最后将抽取到的详细URL链接地址进行再次爬取。
所述对抽取的详细URL链接地址进行抽取时,对抽取到的所述详细URL链接地址进行去重、增量操作,以免出现重复爬取同一个详细URL网址的情况。
所述对抽取到的详细URL链接地址进行抽取的步骤如下:
A、从所述URL存储容器中读取待爬取的详细URL链接地址,并对所述详细URL链接地址进行正确性校验,将校验正确的待爬取详细URL链接地址放入爬虫缓存中;
B、从互联网中爬取指定详细URL链接地址,将爬取到的网页信息内容进行相应解码、解压缩;
C、解析爬取到的所述网页信息,抽取出网页中的URL链接地址,并对所述网页中的URL链接地址进行校验、去重操作;然后重复以上步骤A-C。,所述爬虫线程从给定的入口起在运行队列读取排列在队首的URL链接地址的步骤之前,还包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京英富森信息技术有限公司,未经北京英富森信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310040090.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:聚酯废水中回收乙醛和乙二醇的系统
- 下一篇:电容式触摸屏触点定位方法和终端