[发明专利]一种高适用性的并行关联规则挖掘算法在审
申请号: | 201710190743.3 | 申请日: | 2017-03-28 |
公开(公告)号: | CN106952120A | 公开(公告)日: | 2017-07-14 |
发明(设计)人: | 雷国平;崔丰驿;张怡;李群涛;谭泽富;戴闽鲁 | 申请(专利权)人: | 重庆三峡学院 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F17/30 |
代理公司: | 北京高沃律师事务所11569 | 代理人: | 王加贵 |
地址: | 404100 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适用性 并行 关联 规则 挖掘 算法 | ||
技术领域
本发明涉及数据分析领域,特别是涉及一种高适用性的并行关联规则挖掘算法。
背景技术
目前百货商场的运营模式从货物的采购到运输、管理、营销、服务等方面进行了创新和完善,以人体行为动作为研究对象,通过视频采集消费者的行为动作数据来分析消费者在店内的感兴趣服装的一系列行为动作并关联该服装的销量,从而找出关联规则,利用这些关联规则来提高商店的销售。
现有技术中关联规则挖掘即为了发现一个事件和其他事件之间的依赖和联系,找出隐藏在数据库中的关联信息,目前采用的挖掘方法有通过建立数据所在领域的项相关性模型进行层次聚类,不利于新规则的挖掘;采用粗略剪枝的方法误差较大,降低挖掘结果的准确性;一种基于检测点的Apriori改进算法,减少了候选项的生成和挖掘时间,需要多次扫描数据库,不能保证挖掘算法的高效性;所以,亟需一种能够提高挖掘算法高效性的数据关联规则挖掘算法。
发明内容
本发明的目的是提供一种能够提高挖掘结果的准确度和适用性,保证算法高效性的并行关联挖掘算法。
为实现上述目的,本发明提供了如下方案:
一种高适用性的并行关联规则挖掘算法包括:
采集商场中消费者对一件衣服A做出的动作a,动作b,动作c,动作d,动作e,并对应存储为动作项集{a},动作项集{b},动作项集{c},动作项集{d},动作项集{e};
在统计时间内,采集商场中消费者对所述某件衣服A做出的动作项集,获得在所述统计时间内第一段时间内的动作项集{a}、{c}、{d},在第二段时间内的动作项集{b}、{c}、{e},在第三段时间内的动作项集{a}、{b}、{c}、{e},在第四段时间内的动作项集{b}、{e};
根据所述动作项集{a}、{c}、{d},动作项集{b}、{c}、{e},动作项集{a}、{b}、{c}、{e},动作项集{b}、{e},获得各所述动作项集{a}、{b}、{c}、{d}、{e}的支持度;
根据各所述动作项集{a}、{b}、{c}、{d}、{e}的支持度进行迭代,获得集合{b,c}、集合{b,e}及集合{a,c},各所述集合{b,c}、{b,e}、{a,c}均为频繁2-动作项集;
分别根据所述频繁2-动作项集{b,c}和{b,e}中的第二项组成集合{c,e},所述集合{c,e}为候选2-动作项集;
判断所述候选2-动作项集{c,e}的支持度是否大于二项支持度阈值,如果是,将所述频繁2-动作项集{b,c}、{b,e}和所述候选2-动作项集{c,e}组合成候选3-动作项集{b,c,e},停止迭代;否则,计算各所述频繁2-动作项集{b,c}、{b,e}、{a,c}的频繁度,并相加获得总频繁度;
根据所述动作项集{a}、{c}、{d},动作项集{b}、{c}、{e},动作项集{a}、{b}、{c}、{e},动作项集{b}、{e},获得所述候选3-动作项集{b,c,e}的频繁度;
通过比较所述候选3-动作项集{b,c,e},各所述频繁2-动作项集{b,c}、{b,e}、{a,c}和所述候选2-动作项集{c,e}的频繁度,筛选出频繁度值最高的三个集合,并将所述三个集合的频繁度值相加获得总频繁度;
如果所述总频繁度大于所述频繁度阈值,则表示所述第一段时间、第二段时间、第三段时间、第四段时间内所述某件衣服A在所述商场中的人气较高。
可选的,各所述动作项集{a}、{b}、{c}、{d}、{e}的支持度的计算方法:
分别确定各所述动作项集{a}、{b}、{c}、{d}、{e}在各时间段内是否出现过,如果出现过标记为1,否则标记为0;
统计各所述动作项集{a}、{b}、{c}、{d}、{e}在各时间段内出现过的次数;
分别计算各所述动作项集{a}、{b}、{c}、{d}、{e}的次数与时间段数的百分比。
可选的,所述候选2-动作项集{c,e}的支持度的计算方法:
分别确定所述动作项集{c}和动作项集{e}在同一时间段内是否同时出现过,如果出现过标记为1′,否则标记为0′;
统计各所述动作项集{c}和动作项集{e}在各时间段内同一时间段内同时出现过的次数;
计算所述动作项集{c}和动作项集{e}在同一时间段内同时出现过的次数与时间段数的百分比。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆三峡学院,未经重庆三峡学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710190743.3/2.html,转载请声明来源钻瓜专利网。