[发明专利]基于站点配额的均衡调度系统及方法有效
申请号: | 201210376922.3 | 申请日: | 2012-09-29 |
公开(公告)号: | CN102929721A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 卢宏林 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 站点 配额 均衡 调度 系统 方法 | ||
技术领域
本发明涉及互联网技术领域,具体涉及一种基于站点配额的均衡调度系统及方法。
背景技术
对于搜索引擎来说,从互联网上抓取页面是其处理的第一步。然而互联网累积的页面数巨大,而每天新更新和新产生的页面数同样非常巨大。如何及时地获取这些页面,是搜索引擎面临的首要问题。为了能及时地抓取这些海量页面,必须进行合理而有效的调度。因此,采用何种调度算法就非常重要了。
目前,网页搜索在进行网页抓取调度时,对于新发现的页面按顺序进行排队。对于历史页面,则根据历史页面的更新频率来决定其重新调度的频度。
在网页搜索中,由于所有页面都采用统一的策略,下载延迟的时间几乎都是按天来计的。这对于很多垂直搜索来说是无法容忍的。
特殊情况下,大数据量网站将影响其他网站的及时处理。如果服务器数量不足,一些数据量大的网站的页面,将占去大部分处理能力,导致其他网站无法及时处理。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于站点配额的均衡调度系统及方法。
依据本发明的一个方面,提供了一种基于站点配额的均衡调度系统,包括:
调度任务获取模块,适于获取站点的域名队列中的调度任务;
调度模块,适于对所述调度任务所指定的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面。
可选地,所述调度任务获取模块适于按预定的任务优先级获取站点的域名队列中的调度任务。
可选地,所述系统还包括:反馈调整模块,适于在调度一个页面后将所述服务器的上次调度时间更新为所述上次调度时间加上页面超时时间。
可选地,所述系统还包括:反馈调整模块,适于在下载一个页面后将所述服务器的上次调度时间更新为所述上次调度时间减去回调时间,所述回调时间为页面超时时间与所述页面下载时间之差。
可选地,当页面实际下载时间小于预设的下载耗时,则所述页面下载时间为所述预设的下载耗时,否则为页面实际下载时间。
可选地,所述系统还包括:配额分配模块,具体包括:
站点结构定位模块,适于获取当前服务器上的站点总数,根据站点序号,直接定位站点结构;
域名配额分配模块,适于从站点结构中获取该站点的域名总数和首尾域名序号,对站点域名按上次调度时间进行排序,从选择排序后的域名中选择预定数量的域名;
域名IP定位模块,适于对选定的域名根据其域名IP总数和域名IP首尾序号定位其域名IP地址,通过域名IP中的IP偏移定位IP结构地址,依次选取并记录IP的上次调度时间,选择上次调度时间最早的IP对应的服务器;
调度时间设置模块,适于定位IP结构后,比较IP结构里的上次调度时间与当前时间。如果上次调度时间大于或等当前时间,不为该服务器分配所述一次可调度页面数,如果上次调度时间小于当前时间,为该服务器分配所述一次可调度页面数,同时将该IP的上次调度时间置为当前时间;
循环分配模块,适于如果该域名中IP结构分配完成,循环处理下一个域名,否则在剩下的IP中选择上次调度时间最早的一个IP继续处理,当前站点中所有域名分配完成后,将站点序号加1,以便处理下一个站点,如果站点数达到最大值,序号重置为0,如果在所有站点都检查过一次后没有可分配站点,休眠预定时间后再对所有站点循环分配。
可选地,预定时间为1秒。
根据本发明的另一方面,提供了基于站点配额的均衡调度方法,包括以下步骤:
获取站点的域名队列中的调度任务;
对所述调度任务所指定的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面。
可选地,按预定的任务优先级获取站点的域名队列中的调度任务。
可选地,调度一个页面后还包括步骤:将所述服务器的上次调度时间更新为所述上次调度时间加上页面超时时间。
可选地,下载一个页面后还包括步骤:将所述服务器的上次调度时间更新为所述上次调度时间减去回调时间,所述回调时间为页面超时时间与所述页面下载时间之差。
可选地,当页面实际下载时间小于预设的下载耗时,则所述页面下载时间为所述预设的下载耗时,否则为页面实际下载时间。
可选地,对所述调度任务中的服务器按照预配置的一次可调度页面数从所述服务器中下载相应数量的页面具体包括:
获取当前服务器上的站点总数,根据站点序号,直接定位站点结构;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210376922.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:开关杆装置及开闭检测装置
- 下一篇:电能计量装置远程监测诊断系统及其工作方法