[发明专利]动态计算新闻采集服务资源的方法、信息数据处理终端有效
申请号: | 201810402356.6 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108595666B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 詹咏松;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态 计算 新闻 采集 服务 资源 方法 信息 数据处理 终端 | ||
本发明属于计算机软件技术领域,公开了一种动态计算新闻采集服务资源的方法、信息数据处理终端,通过动态评估采集数量,预测下一步采集数量,并对采集资源合理调用,降低采集资源。通过历史数据,实时采集量,突发时间预警,人为因素调节等多个因子对要采集的目标动态调整服务器资源和带宽等资源,在采集目标增量时增加服务器和带宽等资源,确认对采集目标及时准确采集,在采集目标减量时,释放不必要的资源,节约成本。本发明的服务器可以释放10‑20%的cpu资源,节约10‑15%的内存。特别是针对流量计费的带宽效果更明显,减少30%‑40%的网络带宽消耗。本发明属于国内外的技术空白,对于推动业内的发展具有重大的意义。
技术领域
本发明属于计算机软件技术领域,尤其涉及一种动态计算新闻采集服务资源的方法、信息数据处理终端。
背景技术
(1)在目标网站发布新闻低的时候,还需要占用大量的服务器/带宽资源,造成了资源浪费。
(2)在出现突发新闻事件/新闻发布频率加快的时候,在既定的采集频率下,采集新闻实效慢容易丢失新闻。
(3)固定采集频率,需要在以采集优先和资源节约两个策略中选择,无论选择那种的固定采集频率方案都有技术缺陷,固定采集频率采用单一频率采集,而目标网站数据量随时间发布不同,所以固定采集频率无法彻底解决采集效率和服务器资源节约,受限于技术方案无法彻底解决。
发明内容
针对现有技术存在的问题,本发明提供了一种动态计算新闻采集服务资源的方法、信息数据处理终端。
本发明是这样实现的,一种动态计算新闻采集服务资源的方法,根据历史数据作为参考依据,按时间排序,时间越近对采集权重越高,结合网站的重要性进行人工权重补充修正,以现有采集量与历史数据进行对比,通过公式计算预测下一步所需采集资源,采集数量越多,需要的采集资源越大,动态调整所需资源。
进一步,所述动态计算新闻采集服务资源的方法包括以下步骤:
步骤一,计算历史上每天单位时刻的采集数量,作为横向对比数值,以上一年的历史量为准;
步骤二,根据网站的重要性,给不同的网站设定不同的权重;
步骤三,默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响;
步骤四,通过系统动态计算网站采集数量,作为参数提供;
步骤五,调节系统的敏感度,遇到新闻突发,人为调节,增大系统的敏感性;
步骤六,调节系统的敏感度,如果不调节调节因子设为1;自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1,系统变量设为s。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810402356.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网页内容的显示方法及装置
- 下一篇:一种网络异常数据的关联性分析方法