[发明专利]一种图片抓取的方法和系统有效
申请号: | 201310632698.4 | 申请日: | 2013-11-29 |
公开(公告)号: | CN103645939B | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | 杨涛;吕本伟;卢永菁 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F9/46 | 分类号: | G06F9/46 |
代理公司: | 北京润泽恒知识产权代理有限公司11319 | 代理人: | 兰淑铎 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 图片 抓取 方法 系统 | ||
1.一种图片抓取的方法,包括:
任务分发器按设定规则从任务队列中提取图片抓取任务,并将提取得到的图片抓取任务分发至图片抓取服务器;
图片抓取服务器接收图片抓取任务,启动所述图片抓取服务器中的图片抓取主进程;其中,所述图片抓取任务中包括待抓取图片的链接地址;
通过所述主进程将所述图片抓取任务分发至所述主进程下、满足预置抓取条件的子进程;
通过所述子进程根据所述待抓取图片的链接地址,进行所述待抓取图片的异步抓取;
其中,所述通过所述主进程将所述图片抓取任务分发至所述主进程下、满足预置抓取条件的子进程,包括:
通过所述主进程监听所有子进程中的图片抓取任务数量;
通过所述主进程将所述图片抓取任务分发至所述主进程下、图片抓取任务数量小于第一设定阈值的子进程;
其中,所述任务分发器按设定规则从任务队列中提取图片抓取任务,并将提取得到的图片抓取任务分发至图片抓取服务器,包括:根据所述图片抓取任务,调整与所述图片抓取任务相匹配的图片抓取服务器的数量;任务分发器按设定规则从所述任务队列中提取所述图片抓取任务,并从一个或多个所述图片抓取服务器中确定一个图片抓取服务器,将提取得到的图片抓取任务分发至所述确定的图片抓取服务器。
2.如权利要求1所述的方法,其特征在于,所述通过所述主进程将所述图片抓取任务分发至所述主进程下、满足预置抓取条件的子进程,还包括:
当所述主进程下的所有子进程中的图片抓取任务数量均大于或等于所述第一设定阈值时,通过所述主进程新建一个子进程,并将所述图片抓取任务分发至所述新建的子进程。
3.如权利要求1所述的方法,其特征在于,在所述任务分发器按设定规则从任务队列中提取图片抓取任务,并将提取得到的图片抓取任务分发至图片抓取服务器步骤之前,所述方法还包括:
图片数据接口持续接收图片抓取请求,根据所述图片抓取请求生成图片抓取任务;
将所述图片抓取任务保存在任务队列中。
4.如权利要求3所述的方法,其特征在于,在所述通过所述子进程根据所述待抓取图片的链接地址,进行所述待抓取图片的异步抓取步骤之后,所述方法还包括:
将所述异步抓取的结果信息返回至所述主进程。
5.如权利要求4所述的方法,其特征在于,在所述将所述异步抓取的结果信息返回至所述主进程步骤之后,所述方法还包括:
当所述结果信息为图片抓取成功时,保存抓取得到的图片,并将抓取成功结果返回至所述图片数据接口;
当所述结果信息为图片抓取失败时,重复所述通过所述子进程根据所述待抓取图片的链接地址,进行所述待抓取图片的异步抓取的步骤。
6.如权利要求5所述的方法,其特征在于,在所述重复所述通过所述子进程根据所述待抓取图片的链接地址,进行所述待抓取图片的异步抓取的步骤之后,所述方法还包括:
统计所述通过所述子进程根据所述待抓取图片的链接地址,进行所述待抓取图片的异步抓取步骤的重复次数;
当所述重复次数满足第二设定阈值时,将抓取失败结果返回至所述图片数据接口。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310632698.4/1.html,转载请声明来源钻瓜专利网。