[发明专利]基于海量用户行为数据的高速计算分析方法在审

专利信息
申请号: 201410345089.5 申请日: 2014-07-18
公开(公告)号: CN105302831A 公开(公告)日: 2016-02-03
发明(设计)人: 李馥岑;孙鑫;张旭明 申请(专利权)人: 上海星红桉数据科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 200241 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 海量 用户 行为 数据 高速 计算 分析 方法
【说明书】:

技术领域

发明属于数据处理领域,尤其涉及一种基于海量用户行为数据的高速计算分析方法。

背景技术

随着广电网络公司后平移时代的到来,数字电视业务发展日益成熟,付费频道、时移回看、VOD(VideoOnDemand)即视频点播、其他增值业务(股票、电视商城、游戏等)等多种双向互动新业务在不断的充实广电网络运营商的业务服务内容,广电网络运营商的发展重点逐渐从数字平台搭建、双向网络改造转向了更加多元化的业务经营和盈利模式。

作为传统的广电网络运营商,在数字电视媒体环境下,随着双向网络的不断完善,用户行为数据的采集成为可能,而面对上百万,甚至上千万用户的海量行为数据,如何进行高速的计算分析成为了各大运营商丞待解决的问题。

现有的海量数据计算分析技术,主要是通过将结构化的数据存储在众多的存储及运算设备之中,然后经过数据库的查询、运算、分析,从百万级,甚至千万级用户的海量行为数据中,查询到需要的数据记录和结果,然后再进行运算分析,以形成最终的分析结果。这种方式,由于所有的分析、计算都要从庞大的海量数据中进行查询及运算,使得查询运算的效率大大降低,分析一个简单的指标,都需要从所有数据中进行查询,以获取所需的数据指标。往往查询与运算的时间都是好几个小时,甚至十几个小时,随着数据量的增加,效率会更低,只能通过添加高性能的运算服务器,以提高查询运算的效率。现有的海量数据计算分析技术根本无法做到对海量数据的实时分析与计算,且需要投入大量的高性能服务器资源以配合分析与计算。

发明内容

本发明主要解决的是面对越来越灵活的双向新媒体业务,面对百万级,甚至千万级用户的海量行为数据,将采集到的用户行为数据进行HDFS分布式存储,经过ETL模块对数据进行提取、转换和加载之后,由符合传媒行业特点的优化组合算法模块,将海量的用户行为数据进行高效的数据预处理,形成一系列的中间结果数据,再通过不同的WEB应用程序调用相关的中间结果数据集,以实现对海量用户行为数据的高速分析运算,为运营商提供秒级的实时计算分析。

通过该方法可使广电网络运营商利用现有的双向网络通道获取到的海量用户行为数据,快速有效的得到真实的、准确的分析运算结果,实时地为运营商提供运营决策依据,有效的提高了海量数据的分析运算效率。同时在资源利用率上,较现有的海量数据分析技术可节省大量的硬件设备资源及人员成本。

附图说明

图1为本发明实施例提供的基于海量用户行为数据的高速计算分析方法的实现流程图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。

如图1所示,为本发明基于海量用户行为数据的高速计算分析方法的实现流程图,详述如下:

在步骤S1中,采集运营商的海量用户行为数据及第三方系统的异构数据;

在步骤S2中,通过HDFS((HadoopDistributedFileSystem))分布式存储模块进行三备份分布式存储;

在步骤S3中,由ETL(Extract-Transform-Load)模块完成对海量行为数据的提取、转化及加载;

在步骤S4中然后再由算法处理模块,结合传媒行业的特点,对转化后的海量行为数据,利用基本统计分析算法,例如描述性统计分析、假设检验、回归分析、多元统计分析、方差分析、线性时间序列分析、参数贝叶斯方法、修正收视媒体指标分析方法等,利用高级数据分析算法,例如关联规则挖掘涉及的Apriori算法、基于划分的算法、F-P数频集算法,分类分析涉及的判定树归纳分类、贝叶斯分类、向后传播分类,聚类分析涉及的K-means、CLARANS、BIRCH、CURE、DBSCAN,神经网络算法、高维数据统计分析等,利用智能关联规则挖掘算法、节目评估模型、高级时间序列预测方法等创新算法,通过将上述算法结合符合传媒行业的特点,进行算法间优化组合,形成特定的算法包及数据模型,并针对上述算法特点,对用户的海量行为数据进行预处理,提取共用部分,形成供数据查询、分析、运算、模型演化等,的一系列的中间结果数据,并存储在中间结果数据存储模块中;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海星红桉数据科技有限公司,未经上海星红桉数据科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410345089.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top