[发明专利]一种基于搜索引擎的轻量级通用网页主题爬虫方法有效
申请号: | 201310285000.6 | 申请日: | 2013-07-08 |
公开(公告)号: | CN103310026B | 公开(公告)日: | 2016-11-23 |
发明(设计)人: | 姚瑞波;周凤波;翁强 | 申请(专利权)人: | 焦点科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 张苏沛 |
地址: | 210061 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 搜索引擎 轻量级 通用 网页 主题 爬虫 方法 | ||
1.一种基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,包括步骤为:
步骤1、初始种子:给定的少量描述特定主题相关种子,然后根据主题扩充规则,对种子进行扩充,使得每一个种子被扩充为一系列种子;
步骤2、发现网站:将初始种子转换为查询词,通过搜索引擎接口获得相关的若干网站,并经过多层相关性过滤算法找到和查询词对应的网站;
步骤3、下载网站:将相关的网站下载到本地并存入数据库;
步骤4、网页解析:从下载的网站进行分析,获取其中的链接信息,对相关性符合的链接,进一步判断其指向网站是否和主题相关,如果相关,则将该链接存为一个待爬取URL;
步骤5、种子更新:通过分析已爬取到的新网站,从中提取主题相关词,并以此构造新种子,保证爬取过程持续进行;
步骤6、爬取更新:根据已爬取网站的更新信息,计算重新爬取的周期,使得已爬取网站能实现自适应的自动更新。
2.根据权利要求1所述的基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,步骤1中所述初始种子需要人工提供使得爬取持续进行的主题相关词汇,一般而言,特定领域的用户都熟悉本领域内的典型词汇,因此这种提出初始种子的过程较为可行。
3.根据权利要求1所述的基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,步骤2中对所述将传统繁重的爬虫寻找相关网站的难题转化为简单的搜索查询任务,即利用目前成熟的搜索引擎查询API,准确定位和查询词相关的候选网站集合,这极大避免了主题爬虫中漫无目遍历网页的过程,简化了爬虫整体设计。
4.根据权利要求1所述的基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,步骤4中所述网页解析包括两方面的内容,一方面是发现爬取到的网站中的外链,由此发现更多的主题相关网站,另一方面通过分析网页文本来自动构造新的种子,是实现种子更新的基础。
5.根据权利要求1所述的基于搜索引擎的轻量级网页主题爬虫方法,其特征在于,步骤6中所述爬取更新则是为了保证已爬取的网页和实际的网站尽量保持一致,即爬虫能根据实际网页发生变化的过程,智能地调整自身重新对网站进行爬取的周期。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于焦点科技股份有限公司,未经焦点科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310285000.6/1.html,转载请声明来源钻瓜专利网。