[发明专利]一种主题相关的分布式网络爬虫系统无效

专利信息
申请号: 201210060805.6 申请日: 2012-03-09
公开(公告)号: CN102646129A 公开(公告)日: 2012-08-22
发明(设计)人: 吴黎兵;柯亚林;何炎祥;刘楠 申请(专利权)人: 武汉大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 薛玲
地址: 430072 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 主题 相关 分布式 网络 爬虫 系统
【权利要求书】:

1.一种主题相关的分布式网络爬虫系统,其特征是:包含一个控制节点,多个爬行节点,一个网页数据库,一个网页分析器,一个主题链接存储器;

所述主题链接存储器,用于存放系统未完成抓取的超链接;

所述控制节点,用于从主题链接存储器中提取超链接,去除其中已经被系统抓取过的超链接,然后将未被系统抓取过的超链接分配给爬行节点,并控制是否终止系统运行;

所述爬行节点,用于接收控制节点分配的超链接,然后下载超链接标识的网页,并且将网页存储在网页数据库中;

所述网页数据库,用于存放爬行节点抓取的网页,用于网页分析器作进一步的分析;

所述网页分析器,用于定期从网页数据库中读取爬行节点下载的最新网页,对网页进行内容分析,计算网页及网页内所含超链接的主题相关度,然后根据主题相关度将相关的超链接存放到主题链接存储器中,将每个网页的主题相关度存于网页数据库中。

2.如权利要求1所述主题相关的分布式网络爬虫系统,其特征是:所述主题链接存储器中设有HighQueue队列和LowQueue队列两个子模块;HighQueue队列存储主题相关度大于预设阈值T的超链接,LowQueue队列存储主题相关度不大于预设阈值T的超链接;系统工作流程包括以下步骤,

步骤1,用户定义初始超链接集,定义主题相关的关键词以及主题相关度的阈值T;

步骤2,爬虫系统的控制节点从初始超链接集中提取超链接,然后将超链接分配给爬虫系统的各个爬行节点;

步骤3,爬行节点抓取超链接指定的网页并且将其存储在网页数据库中; 

步骤4,网页分析器从网页数据库中读取网页,抽取网页上的超链接,并且根据主题相关的关键词进行主题相关度计算,将主题相关度大于阈值T的超链接存入主题链接存储器的HighQueue队列中,将主题相关度不大于阈值T的超链接存入主题链接存储器的LowQueue队列中;

步骤5,控制节点先从主题链接存储器的HighQueue队列提取超链接,若HighQueue队列为空就从LowQueue队列中提取超链接,并且在去重后将超链接分配给各个爬行节点; 

步骤6,重复执行步骤3、4、5,在满足系统终止条件时终止重复执行。

3.如权利要求2所述主题相关的分布式网络爬虫系统,其特征是:所述控制节点中设有已抓取超链接队列和任务分配器两个子模块;已抓取超链接队列存储有爬虫系统已经抓取过的所有超链接,任务分配器负责将待抓取的超链接分配给爬行节点;

    控制节点每从主题链接存储器读取一个超链接,就在已抓取超链接队列中检查它是否已经存在,若存在,丢弃该超链接,否则保存该超链接到任务分配器和已抓取超链接队列中;

控制节点从主题链接存储器中读取超链接的规则是,先判断HighQueue队列是否为空,不是则按照最高相关度优先的方式依次从HighQueue队列中提取超链接;如果HighQueue队列为空,控制节点就按照先来先到的方式从LowQueue队列中提取超链接;

控制节点控制系统终止的条件是,已抓取网页数量超过了用户定义的上限,预先在步骤1中定义网页下载数量的上限;或者 HighQueue队列连续为空时间超过预设的时间阈值PD。

4.如权利要求2或3所述主题相关的分布式网络爬虫系统,其特征是:所述爬行节点中设有任务申请器和网页下载器两个子模块;当爬行节点空闲时,任务申请器向控制节点申请一定数量的下载任务,控制节点将超链接分配给各个爬行节点时,按照该爬行节点申请的数量发送超链接;网页下载器用于下载控制节点发送过来的超链接标识的网页,并且将网页保存到网页数据库中。

5.如权利要求2或3所述主题相关的分布式网络爬虫系统,其特征是:所述网页分析器包括内容抽取器和主题相关度计算器两个子模块;内容抽取器通过正则表达式提取网页的标题部分、内容描述部分、关键词描述部分、正文部分及超链接部分;主题相关度计算器根据内容抽取器的提取结果计算主题相关度,然后将主题相关度大于预设阈值T的超链接存放于主题链接存储器中的HighQueue队列中,将不大于预设阈值T的超链接存放于主题链接存储器的LowQueue队列中。

6.如权利要求5所述主题相关的分布式网络爬虫系统,其特征是:主题相关度计算器根据内容抽取器的提取结果计算主题相关度,具体实现如下,

(1)根据网页A中关键词的位置与数量计算网页A的主题相关度,结果记为R(A1),步骤如下,

读取网页A的标题部分、内容描述部分、关键词描述部分和正文部分;

计算这4个部分各自的主题相关度,计算方法为,标题部分、内容描述部分或关键词描述部分只要含有关键词,相应的主题相关度等于1,否则为0;而正文部分的主题相关度用其包含的关键词数量的高斯函数模拟;

最后将这4个部分的主题相关度乘以各自的预设权重然后相加,得到网页A的主题相关度;

(2)根据网页A上指向已下载的主题相关度大于T的网页的超链接数量及这些网页的主题相关度计算网页A的主题相关度,结果记为R(A2);

(3)主题相关度计算器根据链向网页A的主题网页的数量和主题相关度计算网页A的主题相关度,结果记为R(A3);

(4)网页A的主题相关度R(A)取R(A1),R(A2),R(A3)中的最大值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210060805.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top