[发明专利]动态计算新闻采集服务资源的方法、信息数据处理终端有效
申请号: | 201810402356.6 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108595666B | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 詹咏松;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙) 11520 | 代理人: | 马红 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 动态 计算 新闻 采集 服务 资源 方法 信息 数据处理 终端 | ||
1.一种动态计算新闻采集服务资源的方法,其特征在于,所述动态计算新闻采集服务资源的方法根据历史数据作为参考依据,按时间排序,时间越近对采集权重越高,结合网站的重要性进行人工权重补充修正,以现有采集量与历史数据进行对比,通过公式计算预测下一步所需采集资源,采集数量越多,需要的采集资源越大,动态调整所需资源;
所述动态计算新闻采集服务资源的方法包括以下步骤:
步骤一,计算历史上每天单位时刻的采集数量h,作为横向对比数值,以上一年的历史量为准;
步骤二,根据网站的重要性,给不同的网站设定不同的权重w;
步骤三,默认网站的采集频率,初始值,每个网站可以默认一个初始值,也可以人为干预调整,对实际采集数值有影响;
步骤四,通过系统动态计算网站采集数量c,作为参数提供;
步骤五,调节系统的敏感度p,遇到新闻突发,人为调节,增大系统的敏感性;
步骤六,调节系统的敏感度,如果不调节调节因子设为1;自动调节因子基于历史信息分析而成,如果没有历史数据可以设为1,系统变量设为s;
所述步骤二进一步包括:重要的新闻门户,政府宣传网站级别高,地方网站/行业网站级别低,按照重要程度从1-5人工标注,级别5采集权重最高,级别1采集权重最低;权重变量为w,w1-w5取值范围为0-2,如为1,则表示对系统不影响,大于1则提高网站的重要性,小于1则降低网站重要性;
所述步骤六进一步包括:
其中λ按斐波那列数列取值,斐波那契数列指的是数列1,1,2,3,5,8,13,21,34,55,89,144,233,377,610,987,1597,2584,4181,6765,10946,17711,28657,46368........这个数列从第3项开始,每一项都等于前两项之和;k从历史数据最早时刻取值,取到最新一年的数据:
S=s1*a/λn-1;
a为经验值取值范围为0-1,是调节系数,控制历史数据影响力;
如果S=2则意味网站采集量异常率比较高,S取1;
如果1S2取值正常可以代入公式,网站资讯量在增长;
如果0S1网站资讯量在下滑,取值正常;
如果S0人为网站采集量时刻超范围,S取1;
分析动态计算网站采集频率:
根据F的值,调节是否提升采集频率;根据服务器的配置不同,采集能力不同,评估出单位频率下的采集量;低于某一个区间降低采集频率,降低频率不低于初始值,高于此区间则提升采集频率。
2.一种如权利要求1所述动态计算新闻采集服务资源的方法的动态计算新闻采集服务资源的系统,其特征在于,所述动态计算新闻采集服务资源的系统包括:
历史记录模块,每个网站历史上这天的采集量,计算历史上每天单位时刻的采集数量;
网站权重模块,根据网站的重要性,给不同的网站设定不同的权重;
网站现有采集频率模块,默认网站的采集频率,初始值;
网站单位时间采集数量模块,通过系统动态计算网站采集数量,作为参数提供;
人为调节因子模块,人为的调节系统的敏感度;
自动调节因子模块,自动调节系统的敏感度。
3.一种实现权利要求1所述动态计算新闻采集服务资源的方法的信息数据处理终端,其特征在于,所述信息数据处理终端为论坛采集系统、社交媒体采集系统。
4.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1所述的动态计算新闻采集服务资源的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810402356.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网页内容的显示方法及装置
- 下一篇:一种网络异常数据的关联性分析方法