[发明专利]一种基于Hadoop用户行为分析系统设计与实现方法在审

专利信息
申请号: 201410671461.1 申请日: 2014-11-21
公开(公告)号: CN104394211A 公开(公告)日: 2015-03-04
发明(设计)人: 黄敏;刘晶;杨晋博 申请(专利权)人: 浪潮电子信息产业股份有限公司
主分类号: H04L29/08 分类号: H04L29/08;H04L12/26
代理公司: 济南信达专利事务所有限公司 37100 代理人: 张靖
地址: 250101 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hadoop 用户 行为 分析 系统 设计 实现 方法
【说明书】:

技术领域

发明涉及用户行为分析领域,具体涉及一种基于Hadoop用户行为分析系统设计与实现方法。

背景技术

我们生活在数据时代,随着网络的广泛应用、社交网络的繁荣以及用户数量的急剧增长,数据也以爆炸式的方式增长。我们进入了大数据时代,美国互联网数据中心指出,网络上的数据每年将增长50%,每两年将翻一倍,而目前世界上90%以上的数据是近几年才产生的。而且,数据又并非仅仅指人们在互联网上发布的内容信息,全世界的电表、汽车、工业设备上有着无数的数码传感器,随时测量和传递着有关位置、湿度、温度、运动、震动的变化,也产生了海量的数据信息。移动互连、物联网、云计算、社交网络、Web的快速发展让数据前所未有的增长,并且越发集中,这种集中的趋势也将一直持续。海量数据中,必然蕴含着巨大的价值。

Libnids是一个用于网络入侵检测开发的专业编程接口,它使用了Libpcap所以它具有捕获数据包的功能。同时,Libnids提供了TCP数据流重组功能,所以对于分析基于TCP协议的各种协议Libnids都能胜任.Libnids还提供了对IP分片进行重组的功能,以及端口扫描检测和异常数据包检测功能。

发明内容

本发明要解决的技术问题是:本发明是基于区域内用户的网络行为分析,特别是网内所有用户的Web行为分析,而不是仅仅局限于某Web网站的用户行为分析。而目前,大部分网络应用是基于TCP/IP协议之上。在这种大背景下,传统网管的网络质量指标和分析方法并不能准确的反映用户的行为信息。大部分传统的分析方法只能解析出从物理层到传输层的五元组信息,而不能还原出应用层的内容,而恰恰用户的行为信息主要包含在应用层。这就需要在大数据环境下对网络数据包进行应用层协议重组。大数据环境下进行TCP重组工作,涉及TCP的分片序号问题、TCP分片重复问题,这些问题给实际的工作造成了很大的麻烦,使开发流程更加复杂,延长了开发周期。釆用Libnids和Hadoop集群的模式,减少了整个流程的复杂度,Libnids可以减轻开发人员对TCP重组的工作量,而Hadoop集群利用分布式的优点来并行处理任务,更进一步压缩了 发时间,增加了经济效益。这样就可以对应用层协议进行还原,进而得到网络服务器和网络用户的网络行为、会话内容以及网络拥塞或者瘫痪的原因。同时,可以优化网络环境,通过内容还原可以限制非法行为,可以了解网络资源的分布使用情况,推动下一代互联网的发展。

本发明所采用的技术方案为:

一种基于Hadoop用户行为分析系统设计与实现方法,利用高速捕包工具PF_RING抓取网络入口的数据作为用户行为分析的数据源,并将其分布式存储,然后调用网络安全开发包工具Libnids对数据包进行重组,实现TCP/IP的重组,实现应用层HTTP还原,然后调用Hadoop集群,利用分布式Mapreduce编程来分析出用户应用层的网络行为活动,实现从物理层到应用层的全层分析,从用户的搜索词、购物趋向、网站留言和常规网站行为四个维度对用户进行全面的定位,及时了解用户行为和需求,进而策略管控用户行为和优化网络服务,实现网络智能化。

所述方法所涉及的基于Hadoop用户行为分析系统包括: 1) 数据采集模块、2)TCP重组模块、3)Hadoop集群分析模块、4)可视化模块,其中:

1)数据采集模块,负责数据包捕获基于PF_RING的实现,基于PF_RING减少了拷贝次数和CPU中断次数,能够极大地节省数据必要拷贝过程中占用的系统内存,极大地增强系统的数据包捕获效能力,解决了频繁的网络中断、系统调用和多次内存拷贝等问题,从而提高内核处理数据包效率; 

2)TCP重组模块,负责重组完成与TCP/IP协议栈类似的过程,涉及到数据包的顺序重组、数掘包的重复别除流程,采用网络安全发包工具Libnids来进行重组过程; 

3) Hadoop集群分析模块,负责基于Mapreduce框架下对HTTP协议还原技术实现:hadoop对用户的HTTP行为进行解析还原,并且提供长期跟踪用户行为的功能,用Mapreduce框架来分析用户的HTTP行为,用数据仓库Hive来存储分析日志以达到长期跟踪用户行为的目的;

4)可视化模块,负责对行为分析模块的输出进行可视化展示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410671461.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top