[发明专利]一种网页的并发抓取方法和系统有效
申请号: | 201310575226.X | 申请日: | 2013-11-15 |
公开(公告)号: | CN104657355B | 公开(公告)日: | 2018-10-23 |
发明(设计)人: | 金伟;孟凡光 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/08 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 刘祥景 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请提供了一种网页的并发抓取方法和系统,其中的方法具体包括:对待处理抓取请求进行并发处理,并监听所处理抓取请求对应的处理事件消息;依据所述处理事件消息分析得到当前的抓取指标参数;在当前的抓取指标参数超出预设的安全范围时,调低网页并发抓取的并发数。本申请能够提高网页的并发抓取过程中网站的响应速度。 | ||
搜索关键词: | 一种 网页 并发 抓取 方法 系统 | ||
【主权项】:
1.一种网页的并发抓取方法,其特征在于,包括:对待处理抓取请求进行并发处理,并监听所处理抓取请求对应的处理事件消息;依据所述处理事件消息分析得到当前的抓取指标参数;所述抓取指标参数用于表征网页的并发抓取过程中网站负荷状态;在当前的抓取指标参数超出预设的安全范围时,调低网页并发抓取的并发数;其中,所述调低网页并发抓取的并发数,包括:依据最高安全上限TPS与当前TPS的差值进行并发抓取处理的TPS的调低;其中,所述最高安全上限TPS用于表示抓取指标参数未超出预设的安全范围情况下的历史最高TPS;所述历史最高TPS为在并发线程数固定为最大并发线程数的情况下、依据网络环境对安全上限TPS进行调整得到。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310575226.X/,转载请声明来源钻瓜专利网。