[发明专利]网络爬虫调度方法及应用其的网络爬虫系统在审
申请号: | 201510657341.0 | 申请日: | 2015-10-13 |
公开(公告)号: | CN105117501A | 公开(公告)日: | 2015-12-02 |
发明(设计)人: | 周海建 | 申请(专利权)人: | 广州神马移动信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 510627 广东省广州市天河区黄埔大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 爬虫 调度 方法 应用 系统 | ||
本发明要求于2015年10月9日提交中国专利局、申请号为201510649129.X、发明名称为“网络爬虫调度方法及应用其的网络爬虫系统”的中国专利申请的优先权,其全部内容通过引用结合在本发明中。
技术领域
本发明涉及网页抓取技术领域,特别是涉及网络爬虫调度方法及应用其的网络爬虫系统。
背景技术
搜索引擎通常会提供分钟级别的实时索引,以及时向用户展示强时效性网页信息,如新闻网站中的新闻资讯、视频网站中的视频更新动、论坛网友中的热门帖子等。为及时获取这些强时效性网页信息,相关搜索引擎需要维护一批种子页(又称列表页、hub页);其中,所述种子页相当于内容页的索引页面,以新闻网站为例,其种子页用于展示多个新闻标题,每个新闻标题链接到一个内容页,且该内容页用于展示相应新闻标题对应的具体新闻内容。一般的,搜索引擎可以通过网络爬虫系统按照预设的刷新间隔来抓取种子页所需的内容页数据,对上一次抓取的种子页进行更新,从而可以将新的内容页及时展示给用户,保证相关网站的时效性。
基于上述网络爬虫系统,种子页的刷新间隔通常根据其内容页的产出率确定,产出率越高,说明出现新的内容页数据的频率更高,相应的刷新间隔应该越短,以保证内容页数据可以更快的被发现并抓取;以某资讯网站的种子页维护为例,由于工作日的上午7点至11点、下午2点至5点是资讯网站编辑发布新闻的高峰期,即产出率较高,故工作日的这两个时段的刷新间隔较短,而工作日其他时段及非工作日的刷新间隔相对较长。可见,根据不同的产出率设置不同的刷新间隔,可以减少不必要的抓取量,节省抓取资源并整体提高数据时效性。
但是,现有网络爬虫系统的调度方法往往由于刷新间隔设置不合理、缺乏对抓取顺序的合理控制等因素,导致抓取量过大,一些重要页面不能被及时抓取,进而影响索引质量及用户检索效果。
发明内容
为了解决上述技术问题,本申请公开了一种网络爬虫调度方法及应用其的网络爬虫系统。
第一方面,本申请提供了一种网络爬虫调度方法,所述方法包括:
抓取种子页相关的内容页数据;
解析所述内容页数据,得到所述种子页相关的多组链接信息;
根据所述链接信息计算对应的内容页在所述种子页上的链接质量;
按照所述链接质量由高到低的顺序对每个所述链接质量对应的内容页执行抓取操作。
结合第一方面,在第一方面第一种可行的实施方式中,根据所述链接信息计算相应内容页在所述种子页上的链接质量,包括:
对于每组链接信息,计算其各项子信息的质量加权和,并将所述质量加权和作为所述链接信息对应的内容页的链接质量;
其中,所述链接信息的子信息包括以下至少一项:所述链接信息对应的内容页链接在所述种子页中的链接位置和页面分块类型,以及所述种子页中用于描述所述链接信息对应的内容页的锚文本和结构化信息。
结合第一方面,或者第一方面第一种可行的实施方式,在第一方面第二种可行的实施方式中,按照所述链接质量由高到低的顺序对每个所述链接质量对应的内容页执行抓取操作,包括:
根据所述链接质量所在的数值范围确定对应的抓取优先权;
按照所述抓取优先权由高到低的顺序对相应的内容页执行抓取操作。
第二方面,本申请提供了另一种网络爬虫调度方法,所述方法包括:
根据预设刷新间隔抓取种子页相关的内容页数据;
解析所述内容页数据,得到所述种子页相关的多组链接信息;
根据所述链接信息计算对应的内容页在所述种子页上的链接质量;
根据预设周期内同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率;
根据同一种子页中各个内容页的产出率,计算所述预设周期内所述同一种子页的产出率;
根据各个种子页的产出率确定并更新相应种子页的预设刷新间隔。
结合第二方面,在第二方面第一种可行的实施方式中,根据预设周期内同一内容页在与其链接的不同种子页上的链接质量计算各个内容页在不同种子页上的产出率,包括:
保存所述种子页中各个内容页的链接质量及相应的内容页数据的抓取时间;
读取所述抓取时间在预设周期内的所有链接质量,并根据其对应的内容页进行分类;
根据分类得到的同一内容页在不同种子页上的链接质量,以及所述同一内容页的自身质量,计算所述同一内容页在不同种子页上的产出率。
第三方面,本申请提供了一种网络爬虫系统,所述系统包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州神马移动信息科技有限公司,未经广州神马移动信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510657341.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:显示装置及其显示方法
- 下一篇:一种在大数据背景下的数据查询获取方法