[发明专利]一种主题相关的分布式网络爬虫系统无效

申请号：	201210060805.6	申请日：	2012-03-09
公开（公告）号：	CN102646129A	公开（公告）日：	2012-08-22
发明（设计）人：	吴黎兵;柯亚林;何炎祥;刘楠	申请（专利权）人：	武汉大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	薛玲
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种主题相关分布式网络爬虫系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种主题相关的分布式网络爬虫系统，其特征是：包含一个控制节点，多个爬行节点，一个网页数据库，一个网页分析器，一个主题链接存储器；

所述主题链接存储器，用于存放系统未完成抓取的超链接；

所述控制节点，用于从主题链接存储器中提取超链接，去除其中已经被系统抓取过的超链接，然后将未被系统抓取过的超链接分配给爬行节点，并控制是否终止系统运行；

所述爬行节点，用于接收控制节点分配的超链接，然后下载超链接标识的网页，并且将网页存储在网页数据库中；

所述网页数据库，用于存放爬行节点抓取的网页，用于网页分析器作进一步的分析；

所述网页分析器，用于定期从网页数据库中读取爬行节点下载的最新网页，对网页进行内容分析，计算网页及网页内所含超链接的主题相关度，然后根据主题相关度将相关的超链接存放到主题链接存储器中，将每个网页的主题相关度存于网页数据库中。

2.如权利要求1所述主题相关的分布式网络爬虫系统，其特征是：所述主题链接存储器中设有HighQueue队列和LowQueue队列两个子模块；HighQueue队列存储主题相关度大于预设阈值T的超链接，LowQueue队列存储主题相关度不大于预设阈值T的超链接；系统工作流程包括以下步骤，

步骤1，用户定义初始超链接集，定义主题相关的关键词以及主题相关度的阈值T；

步骤2，爬虫系统的控制节点从初始超链接集中提取超链接，然后将超链接分配给爬虫系统的各个爬行节点；

步骤3，爬行节点抓取超链接指定的网页并且将其存储在网页数据库中；

步骤4，网页分析器从网页数据库中读取网页，抽取网页上的超链接，并且根据主题相关的关键词进行主题相关度计算，将主题相关度大于阈值T的超链接存入主题链接存储器的HighQueue队列中，将主题相关度不大于阈值T的超链接存入主题链接存储器的LowQueue队列中；

步骤5，控制节点先从主题链接存储器的HighQueue队列提取超链接，若HighQueue队列为空就从LowQueue队列中提取超链接，并且在去重后将超链接分配给各个爬行节点；

步骤6，重复执行步骤3、4、5，在满足系统终止条件时终止重复执行。

3.如权利要求2所述主题相关的分布式网络爬虫系统，其特征是：所述控制节点中设有已抓取超链接队列和任务分配器两个子模块；已抓取超链接队列存储有爬虫系统已经抓取过的所有超链接，任务分配器负责将待抓取的超链接分配给爬行节点；

控制节点每从主题链接存储器读取一个超链接，就在已抓取超链接队列中检查它是否已经存在，若存在，丢弃该超链接，否则保存该超链接到任务分配器和已抓取超链接队列中；

控制节点从主题链接存储器中读取超链接的规则是，先判断HighQueue队列是否为空，不是则按照最高相关度优先的方式依次从HighQueue队列中提取超链接；如果HighQueue队列为空，控制节点就按照先来先到的方式从LowQueue队列中提取超链接；

控制节点控制系统终止的条件是，已抓取网页数量超过了用户定义的上限，预先在步骤1中定义网页下载数量的上限；或者 HighQueue队列连续为空时间超过预设的时间阈值PD。

4.如权利要求2或3所述主题相关的分布式网络爬虫系统，其特征是：所述爬行节点中设有任务申请器和网页下载器两个子模块；当爬行节点空闲时，任务申请器向控制节点申请一定数量的下载任务，控制节点将超链接分配给各个爬行节点时，按照该爬行节点申请的数量发送超链接；网页下载器用于下载控制节点发送过来的超链接标识的网页，并且将网页保存到网页数据库中。

5.如权利要求2或3所述主题相关的分布式网络爬虫系统，其特征是：所述网页分析器包括内容抽取器和主题相关度计算器两个子模块；内容抽取器通过正则表达式提取网页的标题部分、内容描述部分、关键词描述部分、正文部分及超链接部分；主题相关度计算器根据内容抽取器的提取结果计算主题相关度，然后将主题相关度大于预设阈值T的超链接存放于主题链接存储器中的HighQueue队列中，将不大于预设阈值T的超链接存放于主题链接存储器的LowQueue队列中。

6.如权利要求5所述主题相关的分布式网络爬虫系统，其特征是：主题相关度计算器根据内容抽取器的提取结果计算主题相关度，具体实现如下，

（1）根据网页A中关键词的位置与数量计算网页A的主题相关度，结果记为R(A₁)，步骤如下，

读取网页A的标题部分、内容描述部分、关键词描述部分和正文部分；

计算这4个部分各自的主题相关度，计算方法为，标题部分、内容描述部分或关键词描述部分只要含有关键词，相应的主题相关度等于1，否则为0；而正文部分的主题相关度用其包含的关键词数量的高斯函数模拟；

最后将这4个部分的主题相关度乘以各自的预设权重然后相加，得到网页A的主题相关度；

（2）根据网页A上指向已下载的主题相关度大于T的网页的超链接数量及这些网页的主题相关度计算网页A的主题相关度，结果记为R(A₂)；

（3）主题相关度计算器根据链向网页A的主题网页的数量和主题相关度计算网页A的主题相关度，结果记为R(A₃)；

（4）网页A的主题相关度R(A)取R(A₁)，R(A₂)，R(A₃)中的最大值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210060805.6/1.html，转载请声明来源钻瓜专利网。