[发明专利]一种聚焦爬虫的设计方法有效

专利信息
申请号: 201210484746.5 申请日: 2012-11-26
公开(公告)号: CN102930059A 公开(公告)日: 2013-02-13
发明(设计)人: 陈端兵;高辉;傅彦;张博 申请(专利权)人: 电子科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都行之专利代理事务所(普通合伙) 51220 代理人: 温利平
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 聚焦 爬虫 设计 方法
【说明书】:

技术领域

发明属于网络信息处理技术领域,具体来讲,涉及一种聚焦爬虫的设计方法。

背景技术

随着互联网的迅速发展,互联网已成为大量信息的载体,其中的信息呈现爆炸式的增长,这些海量互联网的信息资源包含着巨大的潜在价值,如何有效,快捷地提取并利用这些信息成为一个巨大的挑战,因而各种网络爬虫技术应运而生,例如传统的通用网络爬虫,主题网络爬虫,增量式网络爬虫与深层网络爬虫等技术。

网络爬虫是一种自动WEB网页抓取程序,可以从互联网中爬取(抓取)相关有用的网页资源。

传统网络爬虫从一个或者若干个初始的URL开始,爬取网页源码信息并从当前网页信息中提取新的URL放入队列,如此循环处理URL队列中URL对应的页面,直至满足系统设定的停止条件。

通常聚焦爬虫在具体处理URL时,需要一定的网页分析算法,过滤与主题无关的URL链接,保留有用的URL链接并将其放入URL等待队列中,此外,还要根据一定的URL搜索策略从队列中选择下一个要抓取的URL,重复以上过程,直到达到系统的终止条件。

聚焦爬虫获取的网页会被系统存储,进行一定的分析,过滤处理,获得与主题或领域相关性强的信息,它的关键技术包括:(1)本体信息描述或定义;(2)网页URL搜索策略;(3)网页分析与过滤算法等。首先聚焦爬虫对本体信息的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念三种,基于目标网页特征的爬虫是针对预定的网页或网站进行抓取,基于目标数据模式的爬虫是针对符合一定模式的网页数据进行抓取,而基于领域概念的爬虫则是建立领域本体或字,并从语义角度去度量不同特征的重要程度。然后聚焦爬虫通常按照一定的搜索策略访问网页中的链接,按照网络的构造模式,搜索策略有广度优先、深度优先、最佳优先三种形式。深度优先搜索对网页的超链接遍历直到不能深入为止,广度优先搜索按层抓取网页中的超链接,最佳优先搜索通过一定的页面分析算法来获取目标网页的超链接。最后聚焦爬虫需要对抓取的页面进行分析过滤,去掉相关度低或者网页粒度小的页面,此页面分析算法归纳为三种:基于网络拓扑结构、基于页面内容、基于用户访问行为。基于网络拓扑结构的思想,主要对已知的网页,对与其有直接或间接链接关系的对象做出评价;基于网页内容的分析算法利用网页内容特征对其进行网页评价,如对网页中文本和数据分析,计算出和主题的相关度;基于用户的访问模式可以反映资源的重要性和与主题相关性,能随时反映网络链接的变化。

目前针对聚焦爬虫提出了一些不同的技术方案,比较著名的有Heritrix与Nutch等。前者由互联网档案馆和北欧国家图书馆联合开发的,采用了模块化的设计,它由一些核心类与可插件模块构成,核心类可以配置,满足实际配置需求,插件模块可任由第三方模块取代,可以不断的被其感兴趣的第三方改进,已成为一个比较成熟的开源爬虫,并被广泛使用。后者是一个开放源代码的WEB搜索引擎,提供了Web聚焦爬虫模块(crawler),它首先根据WebDB生成一个待爬取网页的URL集合(list),接着下载线程根据list中的URL爬取网页,然后再根据爬取回来的网页WebDB进行更新,生成新的URL集合,里面包含未爬取或新发现的URL,如此操作,合并各阶段list中URL的索引,生成最终待爬取网页的索引。它的实现是通过一系列子操作的实现来完成的,针对这些子操作都提供了相应的子命令行,单独进行调试。

通过以上相关聚焦爬虫的分析发现,目前已经存在的网络爬虫仍有许多值得研究的领域,例如传统的聚焦爬虫往往针对预先指定的网站或网页进行爬取,而如何合理的利用海量的互联网信息、根据领域信息快速丢弃与领域相关性弱的网页、有效定位所采集的信息资源等问题等方面研究较少。

发明内容

本发明的目的在于克服现有技术的不足,提供一种更为快速、有效的爬取网络资源的聚焦爬虫的设计方法。

为实现上述发明目的,本发明聚焦爬虫的设计方法,其特征在于,包括以下步骤:

(1)、配置领域本体的描述信息并作为聚焦爬虫的模板,这些描述信息包括:搜索关键词、筛选关键词、爬取关键词;其中,搜索关键词是指提交给搜索引擎进行资源检索的关键词,筛选关键词是指根据搜索引擎的反馈结果进行爬取的资源中包含的需要进行进一步筛选的超链接(URL)所对应的关键词,爬取关键词是指最终要爬取的有效信息所对应的关键词;

(2)、选择爬虫模板的搜索关键词提交给搜索引擎进行资源检索,获取本领域网页URL信息,形成初始种子URL序列N;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210484746.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top