[发明专利]一种基于分布式计算的网络用户行为数据实时处理方法在审
| 申请号: | 201410562441.0 | 申请日: | 2014-10-21 |
| 公开(公告)号: | CN104317877A | 公开(公告)日: | 2015-01-28 |
| 发明(设计)人: | 王加俊;徐礼爽;周文峰 | 申请(专利权)人: | 上海交通大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 赵继明 |
| 地址: | 200240 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 分布式 计算 网络 用户 行为 数据 实时处理 方法 | ||
技术领域
本发明涉及网络数据处理领域,尤其是涉及一种基于分布式计算的网络用户行为数据实时处理方法。
背景技术
随着互联网上信息服务的发展,许多政府部门、公司、大专院校、科研院所等都已经拥有或正在建设自己的网站。每个网站的后面都运行着一个Web服务器,对网站的管理,要求不仅仅关注服务器每天的吞吐量,还要了解网站各页面的访问情况,根据各页面的点击频率来改善网页的内容和质量、提高内容的可读性,根据各页面的浏览交互行为等数据。跟踪包含所有用户,机构等相关的数据并进行统计分析。
尤其对于以电子商务、搜索引擎、在线教育为业务的网络公司而言,更是如此。需要对web服务器的运行和访问情况进行详细和周全的分析,了解网站运行情况,发现网站存在的不足,统计分析用户的数据,促进网站的更好发展,为用户提供更加个性化的智能推荐服务。
由于网站访问的行为记录在不停的累积,因此,网站管理人员需要及时地获知统计分析的结果,例如可以随时看到页面访问量(PV,Page View)等统计数据。与此同时,随着互联网的不断普及,上网人数的不断增加,网站的访问量从十万,百万级别上升到千万,上亿级别;Web服务器浏览器行为数据量也从几十MB到几十GB,甚至达到TB的数量级。而相应的网络行为统计和分析的时间要求却并没有降低。因此,如何及时有效地对不断增加的网络行为进行分析和统计,就成为本领域技术人员所必需面临的问题。
基于大数据统计分析这一问题,中国专利申请号201210450550.4,记载了一种“一种海量日志统计分析系统和方法”。该方法提出了用分布式批处理的方式来有效进行大数据统计分析,但是该方法没有能够解决实时计算的统计分析需求。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种响应请求快、可用性强、计算量小的基于分布式计算的网络用户行为数据实时处理方法。
本发明的目的可以通过以下技术方案来实现:
一种基于分布式计算的网络用户行为数据实时处理方法,包括依次执行的启动过程和实时计算过程,其中,
所述启动过程具体为:从网络用户行为数据库中提取数据进行分布式批处理计算获取统计结果初始值,保存到统计结果缓存区和结果数据库;在启动过程中,数据源端实时侦听用户访问交互行为数据,生成相应的事件数据流并保存,同时将事件数据流保存至网络用户行为数据库;
所述网络用户行为数据库中保存有所有时候用户访问交互行为所产生的事件数据流;
所述实时计算过程具体为:数据源端继续接收用户访问交互行为数据生成的事件数据流,并保存至网络用户行为数据库,将当前数据源端所有的事件数据流分发到分布式的多个节点,基于统计结果初始值进行增量计算并规约,最终结果保存至统计结果缓存区;
所述实时计算过程按设定间隔循环执行。
其中增量计算是指按照应用需求设计出一种增量计算算法,算法的当前结果依赖算法前面过程的计算结果,以便能较快得出当前结果。如平均值增量算法,我们根据元素的个数及每个元素的取值计算出当前的平均值,下一次有新的数据到来重新计算平均值时,依赖前面计算的平均值及元素个数,就可以较为快速的得出当前的平均值。
规约过程将并行计算中各个计算节点的结果汇集进行计算以得出最终的结果。如求和的并行算法中各个节点计算出其分配的数值的和后将结果传给规约步骤,规约过程将各自节点的求和结果累加出最终总的求和结果。
所述启动指网络系统的启动或重新启动。
所述事件数据流包括对应于不同用户访问交互行为的事件类型及相应状态数据。
所述实时计算过程中,事件数据流分发到分布式的多个节点的分发规则包括:按照事件类型分发给不同的节点,每个节点处理一种或几种事件类型的数据计算;或者将所有事件数据流按设定比例分配到各个节点上进行并行计算。
还包括关闭维护准备过程,具体为:
在接收到维护指令时,进入关闭准备状态,将每次实时计算过程获得的最终结果同时保存至统计结果缓存区和结果数据库。
所述关闭维护准备过程中,根据用户访问交互行为数据生成的事件数据流保存至网络用户行为数据库。
还包括:
实时接收用户提交的统计查询请求,若当前处于未启动或启动过程中,则直接从结果数据库中查询数据并返回给用户,若当前处于实时计算过程和关闭维护准备过程中,则从统计结果缓存区中查询数据并返回给用户。
与现有技术相比,本发明可以通过分布式多节点进行统计分析计算,相比标准的web service具有如下优势:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410562441.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:背面金属化共晶工艺方法
- 下一篇:乘客输送带的安全装置





