[发明专利]一种主题相关的分布式网络爬虫系统无效
申请号: | 201210060805.6 | 申请日: | 2012-03-09 |
公开(公告)号: | CN102646129A | 公开(公告)日: | 2012-08-22 |
发明(设计)人: | 吴黎兵;柯亚林;何炎祥;刘楠 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 薛玲 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 主题 相关 分布式 网络 爬虫 系统 | ||
1.一种主题相关的分布式网络爬虫系统,其特征是:包含一个控制节点,多个爬行节点,一个网页数据库,一个网页分析器,一个主题链接存储器;
所述主题链接存储器,用于存放系统未完成抓取的超链接;
所述控制节点,用于从主题链接存储器中提取超链接,去除其中已经被系统抓取过的超链接,然后将未被系统抓取过的超链接分配给爬行节点,并控制是否终止系统运行;
所述爬行节点,用于接收控制节点分配的超链接,然后下载超链接标识的网页,并且将网页存储在网页数据库中;
所述网页数据库,用于存放爬行节点抓取的网页,用于网页分析器作进一步的分析;
所述网页分析器,用于定期从网页数据库中读取爬行节点下载的最新网页,对网页进行内容分析,计算网页及网页内所含超链接的主题相关度,然后根据主题相关度将相关的超链接存放到主题链接存储器中,将每个网页的主题相关度存于网页数据库中。
2.如权利要求1所述主题相关的分布式网络爬虫系统,其特征是:所述主题链接存储器中设有HighQueue队列和LowQueue队列两个子模块;HighQueue队列存储主题相关度大于预设阈值T的超链接,LowQueue队列存储主题相关度不大于预设阈值T的超链接;系统工作流程包括以下步骤,
步骤1,用户定义初始超链接集,定义主题相关的关键词以及主题相关度的阈值T;
步骤2,爬虫系统的控制节点从初始超链接集中提取超链接,然后将超链接分配给爬虫系统的各个爬行节点;
步骤3,爬行节点抓取超链接指定的网页并且将其存储在网页数据库中;
步骤4,网页分析器从网页数据库中读取网页,抽取网页上的超链接,并且根据主题相关的关键词进行主题相关度计算,将主题相关度大于阈值T的超链接存入主题链接存储器的HighQueue队列中,将主题相关度不大于阈值T的超链接存入主题链接存储器的LowQueue队列中;
步骤5,控制节点先从主题链接存储器的HighQueue队列提取超链接,若HighQueue队列为空就从LowQueue队列中提取超链接,并且在去重后将超链接分配给各个爬行节点;
步骤6,重复执行步骤3、4、5,在满足系统终止条件时终止重复执行。
3.如权利要求2所述主题相关的分布式网络爬虫系统,其特征是:所述控制节点中设有已抓取超链接队列和任务分配器两个子模块;已抓取超链接队列存储有爬虫系统已经抓取过的所有超链接,任务分配器负责将待抓取的超链接分配给爬行节点;
控制节点每从主题链接存储器读取一个超链接,就在已抓取超链接队列中检查它是否已经存在,若存在,丢弃该超链接,否则保存该超链接到任务分配器和已抓取超链接队列中;
控制节点从主题链接存储器中读取超链接的规则是,先判断HighQueue队列是否为空,不是则按照最高相关度优先的方式依次从HighQueue队列中提取超链接;如果HighQueue队列为空,控制节点就按照先来先到的方式从LowQueue队列中提取超链接;
控制节点控制系统终止的条件是,已抓取网页数量超过了用户定义的上限,预先在步骤1中定义网页下载数量的上限;或者 HighQueue队列连续为空时间超过预设的时间阈值PD。
4.如权利要求2或3所述主题相关的分布式网络爬虫系统,其特征是:所述爬行节点中设有任务申请器和网页下载器两个子模块;当爬行节点空闲时,任务申请器向控制节点申请一定数量的下载任务,控制节点将超链接分配给各个爬行节点时,按照该爬行节点申请的数量发送超链接;网页下载器用于下载控制节点发送过来的超链接标识的网页,并且将网页保存到网页数据库中。
5.如权利要求2或3所述主题相关的分布式网络爬虫系统,其特征是:所述网页分析器包括内容抽取器和主题相关度计算器两个子模块;内容抽取器通过正则表达式提取网页的标题部分、内容描述部分、关键词描述部分、正文部分及超链接部分;主题相关度计算器根据内容抽取器的提取结果计算主题相关度,然后将主题相关度大于预设阈值T的超链接存放于主题链接存储器中的HighQueue队列中,将不大于预设阈值T的超链接存放于主题链接存储器的LowQueue队列中。
6.如权利要求5所述主题相关的分布式网络爬虫系统,其特征是:主题相关度计算器根据内容抽取器的提取结果计算主题相关度,具体实现如下,
(1)根据网页A中关键词的位置与数量计算网页A的主题相关度,结果记为R(A1),步骤如下,
读取网页A的标题部分、内容描述部分、关键词描述部分和正文部分;
计算这4个部分各自的主题相关度,计算方法为,标题部分、内容描述部分或关键词描述部分只要含有关键词,相应的主题相关度等于1,否则为0;而正文部分的主题相关度用其包含的关键词数量的高斯函数模拟;
最后将这4个部分的主题相关度乘以各自的预设权重然后相加,得到网页A的主题相关度;
(2)根据网页A上指向已下载的主题相关度大于T的网页的超链接数量及这些网页的主题相关度计算网页A的主题相关度,结果记为R(A2);
(3)主题相关度计算器根据链向网页A的主题网页的数量和主题相关度计算网页A的主题相关度,结果记为R(A3);
(4)网页A的主题相关度R(A)取R(A1),R(A2),R(A3)中的最大值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210060805.6/1.html,转载请声明来源钻瓜专利网。