[发明专利]一种基于搜索引擎的轻量级通用网页主题爬虫方法有效
申请号: | 201310285000.6 | 申请日: | 2013-07-08 |
公开(公告)号: | CN103310026B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 姚瑞波;周凤波;翁强 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 210061 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 发明基于搜索引擎的轻量级通用网页主题爬虫方法,包括,初始种子:给定的少量描述特定主题相关种子,根据一定规则,对种子进行扩充至一系列种子;发现网站:将初始种子转换为查询词,通过搜索引擎接口获得相关的若干网站;下载网站:将相关的网站下载到本地并存入数据库;网页解析:从下载的网站进行分析,获取其中的链接信息;种子更新:通过分析已爬取到的新网站,从中提取主题相关词,并以此构造新种子,保证爬取过程持续进行;爬取更新:根据已爬取网站的更新信息,计算重新爬取的周期,使得已爬取网站能实现自适应的自动更新。本发明具有低代价、易实现、高效、准确等特点。 | ||
搜索关键词: | 一种 基于 搜索引擎 轻量级 通用 网页 主题 爬虫 方法 | ||
【主权项】:
一种基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,包括步骤为:步骤1、初始种子:给定的少量描述特定主题相关种子,然后根据主题扩充规则,对种子进行扩充,使得每一个种子被扩充为一系列种子;步骤1中所述初始种子需要人工提供使得爬取持续进行的主题相关词汇,一般而言,特定领域的用户都熟悉本领域内的典型词汇,因此这种提出初始种子的过程较为可行;步骤2、发现网站:将初始种子转换为查询词,通过搜索引擎接口获得相关的若干网站,并经过多层相关性过滤算法找到和查询词对应的网站;步骤2中将传统繁重的爬虫寻找相关网站的难题转化为简单的搜索查询任务,即利用目前成熟的搜索引擎查询API,准确定位和查询词相关的候选网站集合,这极大避免了主题爬虫中漫无目遍历网页的过程,简化了爬虫整体设计;所述步骤2中提及的相关性过滤算法是一种新型的基于向量空间模型的相关网站三层主题过滤方法:首先,根据网站URL链接字符串、简称和全称进行初步的主题过滤;其次,进一步利用搜集的领域典型网站的URL构成的向量进一步进行过滤;最后,提取网站主页的关键词,并与领域背景知识进行向量相关度计算,判断网站是否是属于特定主题;通过以上三层主题过滤,能有效地过滤掉偏离主题的网站,减少需要爬取和分析的网页数量;步骤3、下载网站:将相关的网站下载到本地并存入数据库;步骤4、网页解析:从下载的网站进行分析,获取其中的链接信息,对相关性符合的链接,进一步判断其指向网站是否和主题相关,如果相关,则将该链接存为一个待爬取URL;步骤4中所述网页解析包括两方面的内容,一方面是发现爬取到的网站中的外链,由此发现更多的主题相关网站,另一方面通过分析网页文本来自动构造新的种子,是实现种子更新的基础;步骤5、种子更新:通过分析已爬取到的新网站,从中提取主题相关词,并以此构造新种子,保证爬取过程持续进行;系统定期从一些具有Hub链接特征的领域列表网站出发,采用了Best First Search的方法对URL进行爬取,作为新的种子添加到种子集中,并分别利用Berkeley DB和BloomFilter实现未访问和已访问URL队列;步骤6、爬取更新:根据已爬取网站的更新信息,利用泊松分布计算重新爬取的周期,使得已爬取网站能实现自适应的自动更新;步骤6中所述爬取更新则是为了保证已爬取的网页和实际的网站尽量保持一致,即爬虫能根据实际网页发生变化的过程,智能地调整自身重新对网站进行爬取的周期;首先,根据网页更新符合泊松分布的特点,计算各网站内网页的更新周期,取其平均值作为站点更新周期;然后,以该周期作为爬虫重新爬取网站的间隔周期初始值,利用自适应的方法,根据网站动态变化情况调整更新周期,从而达到有效利用带宽、合理重复爬取和保证网站实时性的目的。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310285000.6/,转载请声明来源钻瓜专利网。