[发明专利]一种基于不同更新策略的分布式网络爬虫抓取方法在审
申请号: | 201610181698.0 | 申请日: | 2016-03-28 |
公开(公告)号: | CN105868327A | 公开(公告)日: | 2016-08-17 |
发明(设计)人: | 封金煜;杨胜华;崔乐乐 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于不同更新策略的分布式网络爬虫抓取方法,属于获取计算机网页更新信息技术领域。所述基于不同更新策略的分布式网络爬虫抓取方法包括以下步骤:S1:网页更新策略:(1)通过网页不同属性,进行聚类分析,将相同的属性的网页分为一组;(2)对同一聚类组的网页进行抽样提取,通过历史参考策略确定网页的更新频率;(3)通过得到的网页更新频率,对网页进行定时抓取;S2:分布式集群搭建。本发明所述基于不同更新策略的分布式网络爬虫抓取方法,避免了实时监测网页是否更新,可以通过得到的网页更新频率来定时的进行网页更新,减低了系统存储的负担,具有很好的推广应用价值。 | ||
搜索关键词: | 一种 基于 不同 更新 策略 分布式 网络 爬虫 抓取 方法 | ||
【主权项】:
一种基于不同更新策略的分布式网络爬虫抓取方法,其特征在于:包括以下步骤:S1:网页更新策略:(1)通过网页不同属性,进行聚类分析,将相同的属性的网页分为一组;(2)对同一聚类组的网页进行抽样提取,通过历史参考策略确定网页的更新频率;(3)通过得到的网页更新频率,对网页进行定时抓取;S2:分布式集群搭建:采用一致性哈稀分片算法进行redis集群的搭建,将不同的key分布到不同的redis server上。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610181698.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种带温度压力补偿的膜式燃气表
- 下一篇:一种地理信息采集装置