[发明专利]基于云计算的海量用户行为实时分析方法及系统有效

专利信息
申请号: 201310711739.9 申请日: 2013-12-20
公开(公告)号: CN103793465B 公开(公告)日: 2018-06-22
发明(设计)人: 高曙;蒋子龙;徐雄威;张燃;罗正宜 申请(专利权)人: 武汉理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 武汉开元知识产权代理有限公司 42104 代理人: 潘杰;胡红林
地址: 430070 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于云计算的海量用户行为实时分析方法与系统,通过客户端实时采集用户行为及上下文数据,基于MapReduce模型进行预处理与聚合;对本体数据推理,实时分析用户最新兴趣;提出基于用户行为上下文的轨迹重现算法,进行轨迹补全;利用余弦因子法计算用户间兴趣相似度,建立用户兴趣相似度矩阵;构建马尔科夫转移矩阵以及基于协同过滤的马尔科夫推荐模型,实现有效与精准推送。本发明采用本体,对用户行为及上下文信息建模,并使用基于HBase的本体存储模式,实现大规模行为信息的语义级共享和重用。本发明将云计算、本体及推理、知识发现等技术相结合,解决了海量用户行为分析中,实时性、高效性、大规模存储以及智能化的问题。
搜索关键词: 海量用户 实时分析 用户行为 云计算 推理 预处理 大规模存储 上下文数据 上下文信息 相似度矩阵 兴趣相似度 语义 存储模式 实时采集 协同过滤 行为分析 行为信息 用户兴趣 余弦因子 知识发现 转移矩阵 高效性 客户端 实时性 智能化 构建 建模 推送 算法 聚合 重用 重现 共享
【主权项】:
1.一种基于云计算的海量用户行为实时分析方法,其特征在于,包括如下步骤:(1)客户端实时采集用户行为及上下文信息,然后通过客户端Ajax异步上传到服务器保存;所述用户行为及上下文信息包括用户行为主体、发生时间、发生的页面、上下滚动页面、移动或点击鼠标、页面停留时间、收藏、打印、保存、访问同一页面次数、复制粘贴文字操作、当前用户的搜索条件、搜索关键字对应的标题;(2)对用户行为及上下文信息采用MapReduce并行模型进行预处理与数据聚合,将结果存放到HBase数据库相应表中;所述预处理包括:去除不完整数据,删除重复数据、图片、页面动画;对页面进行的打印、收藏、保存、下载操作,在获取后,将其转换为对应的数据格式保存在数据库中;所述数据聚合包括:对正确、但无效的用户行为信息,采用基于规则的用户行为聚合算法进行过滤、整合;(3)使用OWL‑DL描述语言建立用户行为及上下文本体模型,并对本体模型进行分解,设计基于HBase的本体存储模式;(4)将聚合后的用户行为及上下文信息添加到用户行为及上下文本体模型中,利用Jena对存储在HBase中的用户行为及上下文本体模型数据进行推理,找出用户最新兴趣数据;利用Jena对存储在HBase中的用户行为及上下文本体模型数据进行推理包括:使用Jena本体推理机,设计本体模型的推理规则,并保存到HBase数据库中,读取本体文件后,创建本体模型,建立本体推理机,将规则读取到本体推理机中,设置推理的类型,进行推理分析,将推理结果保存在本体存储模式表中;利用Hive对存储在HBase中的用户行为及上下文本体模型数据进行推理包括:将本体推理规则转换为Hive查询语句,对保存在基于HBase中本体模型数据进行推理;(5)对(2)中所述结果,提取每个用户每一次会话内浏览的网页URL链接,采用基于用户行为上下文的轨迹重现算法进行轨迹补全,将补全后的结果存放到HBase数据库相应表中;(6)依据(5)中所述补全后的结果建立马尔科夫状态转移矩阵,并将该矩阵存放到HBase数据库相应表中,依据(4)中所述用户最新兴趣数据,利用余弦因子法计算出每个用户间的兴趣相似度,构成兴趣相似度矩阵;结合所述马尔科夫状态转移矩阵建立基于协同过滤的马尔科夫推荐模型;所述马尔科夫状态转移矩阵表示为A=a[i][j]且∑a[i][j]=1,其中j的取值从1到N,其中a[i][j]=P(sj|si);具体实现步骤为:马尔科夫推荐模型根据马尔科夫状态转移矩阵判断下一个要发生状态的概率分布,马尔科夫状态转移矩阵表示为A=a[i][j]且∑a[i][j]=1,i,j分别表示状态i和状态j,其中i的取值从1到N,j的取值从1到N,其中a[i][j]=P(sj|si),即:由状态i转移到状态j的概率,因为有N个可能的状态,所以a[i][j]共有N*N可能的取值;兴趣相似度矩阵是根据用户兴趣关键词构成的向量,利用余弦因子法计算出每个用户间的兴趣相似度,从而构成能体现所有用户之间兴趣相似度的矩阵;协同过滤是根据预定的邻居数K,在兴趣相似度矩阵中选择相似度由大到小的前K个用户,再在这K个用户各自的马尔科夫状态转移矩阵中找出其相应的、大于某阈值的下一步URL集,这样就形成了一个推荐URL集;(7)针对实时捕捉到的用户输入页面URL,通过基于协同过滤的马尔科夫推荐模型进行下一步URL集推荐;基于协同过滤的马尔科夫推荐模型的算法描述为:输入:所有用户实时行为信息;当前用户的页面URL输出:推荐下一步可能的URL集具体包括以下步骤:1)对所有用户实时行为及上下文信息进行清洗和预处理,取出每条记录中的UserID、SearchURL、PageStayTime、SavePage、PrintPage、Favorites字段;2)建立马尔科夫状态转移矩阵:选取UserID识别用户,根据该用户搜索记录的时间,整理出该用户的SearchURL从前到后的马尔科夫序列,以该用户搜索记录中所有出现SearchURL,建立矩阵的行和列,统计该用户在每个当前SearchURL向其他SearchURL跳转的次数,将此次数与该用户总跳转次数的比值作为状态转移矩阵在该位置的值,从而,建立起每个用户的马尔科夫状态转移矩阵,其中,矩阵的每个行头位设置为UserID_SearchURL,每个列头位设置为SearchURL,矩阵生成后存储在userShiftMatrix表;3)马尔科夫状态转移矩阵加权:选取PageStayTime作为马尔科夫状态转移矩阵某个元素值的附加权值计算条件之一,如果PageStayTime∈(0,30),在矩阵对应元素值*1,如果PageStayTime∈(30,60),在矩阵对应元素值*(1+1/20),如果PageStayTime∈(60,+∞),在矩阵对应元素值*(1+2/20);选取SavePage、PrintPage、Favorites作为马尔科夫状态转移矩阵对应元素值的附加权值计算条件之一,只要其中一个参数值为1,则在矩阵对应元素值*(1+2/20);4)用余弦因子法得出各用户之间兴趣相似度矩阵:依据(4)得出结果,将用户u的兴趣信息看做向量u,用户v的兴趣信息看做向量v,用户u,v间的相似度sim(u,v)采用余弦夹角度量,sim(u,v)=cos(u,v)=u·v/(|u|*|v|),用户兴趣相似度矩阵由每一个sim(u,v)元素组成;5)推荐结果:针对用户输入的URL,在当前用户拥有的状态转移矩阵中查找下一步可能访问的URL:大于某个设定阈值的即是符合推荐条件的URL集;另外,根据用户兴趣相似度矩阵,选择相似度大的前N个用户,在这N个用户各自的状态转移矩阵中,找出当前URL情况下,下一步可能的URL集,从而形成总的推荐URL集。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310711739.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top