[发明专利]一种基于搜索引擎的轻量级通用网页主题爬虫方法有效
申请号: | 201310285000.6 | 申请日: | 2013-07-08 |
公开(公告)号: | CN103310026B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 姚瑞波;周凤波;翁强 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 210061 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 搜索引擎 轻量级 通用 网页 主题 爬虫 方法 | ||
技术领域
本发明涉及信息检索领域,特别是涉及信息检索中的网页主题爬虫。
背景技术
万维网上的海量信息不断地快速增长和更新,对这个海量信息库进行及时的收集一直是信息检索研究和应用的基础问题,Web爬虫正是解决该问题的经典技术。在很多时候,人们仅仅需要搜索特定领域或主题的Web网站,完成这项任务的爬虫技术即称为主题爬虫。不同领域都有大量的网站,对这些领域网站的自动爬取,是建立该领域的垂直搜索引擎以及特定领域数据挖掘和分析等应用的基础。
虽然特定领域网站之间存在一定的链接关系,但是这也取决于网站的维护程度。如何全面、快速和精确地找到特定领域网站成了主题爬虫系统需要解决的主要问题。另外由于网站更名和合并等因素,使得领域网站的识别有了一定难度。爬虫系统需要从一些已给定的初始网站出发,尽可能多的通过链接寻找到新的网站,并且实现网站爬取的更新。
目前的主题爬虫研究主要包括主题爬行算法和主题相似度计算算法。在主题爬行算法领域,不同于传统爬虫的宽度优先和深度优先搜索策略,主题爬虫为了效率,在此基础上发展出了多种多样的算法。主要分为三类,基于文字内容启发式方法,基于Web超链图方法,基于分类器的方法。基于文字内容的启发策略主要应用的是网页中的文本信息,主要有标题,正文,链接,锚文本等。基于Web图的启发策略的基本思想来自于文献计量学的引文分析理论,这种理论能有效的应用于Web环境。基于Web超链图的方法可克服基于文字内容难以精确描述主题以及分析效率问题。在主题相似度计算算法上,有研究者提出了基于概念主题相似度计算策略,一个关键字在不同的场合往往含有不同的含义,这对中文尤其明显。采用概念的关键字集合能更加细致的对主题进行描述。还有工作者提出了基于本体的自主学习的主题爬虫策略,采用基于概念和关系的方法,收集现实真实生活中的数据作为本体来与网页中提取的本体信息计算网页的相似度。
现有的网页主题爬虫方法存在两方面的问题。一方面是发现特定领域网页的爬取代价问题,为了发现特定领域中的网页,需要对海量的网页进行过滤,这种爬取方式是建立在通用爬取的基础上,实现代价太高。另一方面是发现和特定主题相关的网页的爬取精度问题,即对爬取的网页,需要能较精确地判定是否是特定主题的网页。本发明旨在提出一种解决现有方法这两方面不足的新型通用网页爬虫技术。
发明内容
本发明主要解决的技术问题是提供一种基于搜索引擎的轻量级通用网页主题爬虫技术,该方法有低代价、易实现、高效、准确等优点。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于搜索引擎的轻量级通用网页主题爬虫方法,包括步骤为:
(1)初始种子:给定的少量描述特定主题相关种子,如商品简称和全称等,然后根据一定规则,对种子进行扩充,使得每一个种子被扩充为一系列种子;
(2)发现网站:将初始种子转换为查询词,通过搜索引擎接口获得相关的若干网站,并经过多层相关性过滤算法找到和查询词对应的网站;
(3)下载网站:将相关的网站下载到本地并存入数据库;
(4)网页解析:从下载的网站进行分析,获取其中的链接信息,对相关性符合的链接,进一步判断其指向网站是否和主题相关,如果相关,则将该链接存为一个待爬取URL;
(5)种子更新:在下载和爬取线程开始一段时间之后,或无法爬取到新网页时,启动种子更新线程,通过分析已爬取到的新网站,从中提取主题相关词,并以此构造新种子,保证爬取过程持续进行;
(6)爬取更新:根据已爬取网站的更新信息,计算重新爬取的周期,使得已爬取网站能实现自适应的自动更新。
在本发明一个较佳实施例中,步骤(1)中所述初始种子需要人工提供使得爬取持续进行的主题相关词汇,一般而言,特定领域的用户都熟悉本领域内的典型词汇,因此这种提出初始种子的过程较为可行。
在本发明一个较佳实施例中,步骤(2)中对所述将传统繁重的爬虫寻找相关网站的难题转化为简单的搜索查询任务,即利用目前成熟的搜索引擎查询API,准确定位和查询词相关的候选网站集合,这极大避免了主题爬虫中漫无目遍历网页的过程,简化了爬虫整体设计。
在本发明一个较佳实施例中,步骤(4)中所述网页解析包括两方面的重要目的,一方面是发现爬取到的网站中的外链,由此发现更多的主题相关网站,另一方面通过分析网页文本来自动构造新的种子,是实现种子更新的基础。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310285000.6/2.html,转载请声明来源钻瓜专利网。