[发明专利]互联网实时计算的方法和系统有效
申请号: | 201210369816.2 | 申请日: | 2012-09-27 |
公开(公告)号: | CN102902775A | 公开(公告)日: | 2013-01-30 |
发明(设计)人: | 何跃;汤晓刚 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L12/24;H04L29/08 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 黄启行;方晓明 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 实时 计算 方法 系统 | ||
技术领域
本发明涉及互联网数据挖掘技术领域,尤其涉及一种互联网实时计算的方法和系统。
背景技术
随着facebook、twitter、微博、博客等web2.0新型媒体的发展,对消息的实时性要求越来越高,与此同时,对信息内容的分析也越来越重要,越来越实时。为了满足互联网的实时性热点分析、活跃用户分析、舆情监控、垃圾信息处理、非法信息过滤等需求,作为实时信息内容的产生方以及第三方,均对实时数据挖掘分析展开了大量的研究和系统设计。
现代互联网数据挖掘技术,分为实时计算和离线计算两种。离线计算就是目前常用的计算方式,计算的源是基于用户生成的系统日志进行计算,并通过分类、聚类等数据模型进行相关的统计而得出排行榜、用户行为习惯、相关的热点等数据。当前离线系统最常用的是两种,一种是小数据的单机的数据分析,可以通过简单的脚本程序、分析出想要的结果数据,一种是大数据的分布式的数据挖掘,大数据一般采用hadoop、hdfs、hbase等国外开源成型的解决方案,用于处理海量的离线数据,并将处理结果的数据,存放在数据库、缓存中,给以后的前端应用使用。
而实时计算,是收集互联网用户实时产生的数据,并直接应用相关的数据模型进行建模,得出在当前时间点或者在当前一段时间内,用户以及整个系统的排行榜、实时热点、用户偏好、舆论走向等数据。
常用的实时计算框架是通常是采用Yahoo开源的S4、Twitter开源的Storm,还有Esper,Streambase,Hstreaming,以及scribe、rainbird等开源技术,基本步骤是将前端日志实时发送到后端处理服务器,后端再写程序,进行相关的实时计算。
离线计算有延时性,不能很快反应当前产品的热点,比如微博上热议一个事情,它的引爆时间已经缩短到几十分钟,离线计算已经不太符合当今互联网的需求,我们需要更实时的计算方法和模式。
另外,现有的实时计算模式,一般只做到数据收集这一层,而数据分析建模、排行建模、数据分析结果对外高速接口并不涉及,所以,目前的实时 计算并不是一个体系,不是一个完整的系统。
发明内容
根据本发明的一方面,提供了一种互联网实时计算的方法,包括:
根据用户在网站上的操作,前端服务器生成指定格式的消息日志并发送所生成的指定格式的消息日志;
中心消息日志收发处理单元接收前端服务器发送的消息日志,并根据消息日志的属性,分发消息日志到后端的相应的实时计算模型单元中;
实时计算模型单元对接收到的消息日志进行预定的计算,把计算结果放在内存或者磁盘中,或将结果作为API(Application Programming Interface,应用程序编程接口)供其他程序调用。
其中,所述指定格式的消息日志包含了所述实时计算模型单元所需要的元数据,元数据具体为用户的UID、或操作时间、或操作类型、或文章内容、或文章类型、或文章的关键词等。
其中,所述实时计算模型单元可以是实时活跃用户分析模型。
另外,所述实时计算模型单元还可以是实时热点排行模型单元,实时热点排行模型单元对接收到的消息日志进行预定的计算具体为:采用实时热点排行榜算法,该算法采用时间片分割方法,把时间分为各个长度的自然时间段,多维度反应当前数据的热点排行。
其中,实时热点排行榜算法为TF/IDF、隐马尔可夫链、决策树、贝叶斯算法中的一种或几种。
此外,实时计算模型单元还可以是实时反垃圾模型单元;或者,实时计算模型单元也可以是实时非法信息过滤模型单元。
互联网的数据有高峰值、低峰值之分,离线计算,可以降低后端计算的峰值,系统运行更平稳;而实时计算,后端分析服务器也会有高地峰值,为了保证后端服务器的稳定性,中心消息日志收发处理单元以预定速度收集和分发消息日志到实时计算模型单元。
根据本发明的另一方面,提供了一种互联网实时计算系统,该系统包括:
前端服务器,用于根据用户在网站上的操作,生成指定格式的消息日志,并将生成的指定格式的消息日志进行发送;
中心消息日志收发处理单元,用于接收所述前端服务器发送的消息日志,并根据消息日志的属性,分发消息日志到后端相应的实时计算模型单元中;
实时计算模型单元,用于对接收到的消息日志进行预定的计算,把计算 结果放在内存或者磁盘中,或将结果作为API供其他程序调用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210369816.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:清洗装置
- 下一篇:一种改进型高压脉冲清洁喷头