[发明专利]一种应用于游戏道具推荐的频繁项集挖掘方法在审
申请号: | 201611144649.6 | 申请日: | 2016-12-13 |
公开(公告)号: | CN106815302A | 公开(公告)日: | 2017-06-09 |
发明(设计)人: | 金海;张舫;张宇;廖小飞 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/50 |
代理公司: | 华中科技大学专利中心42201 | 代理人: | 李智 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 游戏 道具 推荐 频繁 挖掘 方法 | ||
技术领域
本发明属于数据挖掘领域,更具体地,涉及一种频繁项集挖掘方法。
背景技术
数据挖掘技术自诞生以来就致力于发现隐藏在数据中有价值的信息,数据挖掘有六种模式:分类模式、聚类模式、回归模式、关联模式、序列模式和偏差模式。其中关联模式分析是其重要研究的方向。而频繁项集挖掘是关联规则挖掘算法的重要组成部分。通过频繁项集挖掘算法能够在大数据中找出有用的规则,这种方法可以应用于很多领域,如网页日志挖掘、商业销售方面、金融业方面针对不同类型客户群体推荐他们可能感兴趣的金融业务以及游戏应用道具推荐等等。然而,在大数据的背景下传统的单机挖掘方式已经无法满足人们的需求,单纯的通过提高CPU运算速度以及内存容量的方法不仅造价过高,也不现实,硬件的发展远远赶不上人们对运算速度的需求,这时并行化的运算模式显得尤为重要,通过改进或创新数据挖掘算法,并与分布式运算模式相结合是当前一个很好的可选方案。
随着网络信息时代的到来,网络游戏产业应运而生。网络游戏是文化、艺术与高科技的融合,它给我们提供了一种新的休闲娱乐方式。与此同时,网络游戏产业蓬勃发展,市场进一步扩大,网络游戏逐渐成为网络经济的领头羊。当游戏的选择越来越多,玩家的眼光越来越挑剔,只有适合玩家的游戏才能在市场上经久不衰。数据挖掘已经引起了游戏行业的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。以此来改善游戏品质,提高运营效率,为游戏运营商赢取更多用户。数据挖掘已经在各个行业得以充分运用,但网络游戏这块市场并没有充分开发完全。同时行之有效的处理游戏数据的方法还尚未明朗。
现有的频繁项集挖掘算法主要拥有以下几个缺点:
1)算法效率过低,无法再有限时间里面得到挖掘结果;
2)并行算法无法均衡的划分负载。
发明内容
针对现有技术的缺陷或迫切技术需求,本发明公开了一种在MapReduce平台上并行的频繁项集挖掘方法,依据负载预测合理划分数据,保证负载均衡;通过优化递归挖掘流程,大大减少密集型数据挖掘时间,解决了算法效率低、负载不均衡的问题。
为实现上述目的,本发明有以下步骤:
一种频繁项集挖掘方法,包括以下步骤:
(1)通过Mapreduce统计原始数据中各项的出现次数;
(2)依据各项出现次数筛选出频繁一项,将频繁一项按照出现次数由高到低排序构成F-List;
(3)按照负载均衡原则对F-List中的各项分组,得到包含项和其所属组号信息的G-List;
(4)Mapper对原始数据进行分配:
(4-1)对每条原始数据的各项按照F-List中项顺序进行重新排序;
(4-2)从每条原始数据的最后一项开始读取项item,在G-List中查找item的组号gid,然后以gid作为键key,将数据中排在item前面的所有项作为值value构成键值对<key=gid,value=items>,作为Mapper输出的键值对,若组号gid已出现过,则忽略,继续取前一项进行相同操作,直到一条数据处理完毕;
(5)Reducer对Mapper输出的键值对进行频繁项集挖掘:
(5-1)根据Mapper输出的key=gid,将value=items分配给相应的reducer,reducer构建PPCtree;PPCtree为树状结构,每个节点包含五个属性值:名字、支持度frequency、子节点、前序遍历序号pre和后序遍历序号post;
(5-2)对于PPC-tree中每个节点Ni,将<Ni.pre,Ni.post,Ni.frequency>命名为PP-code,将各PP-code按照pre的升序排序,构建得到F-List中每个频繁一项的N-List;
(5-3)构建Reducer的G-Subsume:G-Subsume(A)={A,B∈I1,其中,A和B表示两个不同的频繁一项,A.gid表示项A的组号,Reducer.gid表示Reducer对应的组号,g(X)表示包含频繁一项X的数据ID的集合,X=A或B,I1表示频繁一项的集合;
(5-4)递归挖掘,其子步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611144649.6/2.html,转载请声明来源钻瓜专利网。