[发明专利]一种基于加权频繁序列的商品组合挖掘方法在审
| 申请号: | 202111556654.9 | 申请日: | 2021-12-17 |
| 公开(公告)号: | CN114219574A | 公开(公告)日: | 2022-03-22 |
| 发明(设计)人: | 叶臻强;陈家辉;万世成;郭炜彬;黎梓洋;梁梓恩 | 申请(专利权)人: | 广东工业大学 |
| 主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06F16/2458 |
| 代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 禹小明 |
| 地址: | 510090 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 加权 频繁 序列 商品 组合 挖掘 方法 | ||
本发明公开了一种基于加权频繁序列的商品组合挖掘方法,涉及大数据挖掘的技术领域,获取基于时间的商品交易的订单信息,组成商品数据集,根据商品的收益情况为每个商品赋予不同的权值,并依据商品权值大小,对多元项中包含的商品进行排序之后对商品进行加权频繁序列的挖掘;根据向下闭包特性,深度挖掘商品数据集中具有高收益和高频次的商品组合方式;根据先验性原理,从商品数据集中剔除不是加权频繁序列商品,减少候选组合方式的产生,提高挖掘效率。本发明在保证挖掘准确性的前提下拥有更高的挖掘效率,为商家提供更好的营销思路。
技术领域
本发明涉及大数据挖掘的技术领域,更具体地,涉及一种基于加权频繁序列的商品组合挖掘方法。
背景技术
近年来,随着网络活动的日益增加,产生了大量的数据;如何从海量数据中寻找出有价值的信息成为各行各业都极为感兴趣的领域。因此,数据挖掘技术得到了极大的发展,为人们进行决策活动提供了更加细致和明晰的内在关联,具有深刻的借鉴、指导意义。比如商场的购物篮模型,对频繁项集挖掘做了充分且深入的研究。频繁项集挖掘是指从事务数据库中挖掘出现频次高的模式,即事务的组合,这在许多领域有着广泛的应用。随着信息的复杂度上升以及数量指数增长,顺序模式挖掘被认为在各种任务中有更好的表现,比如在精准营销、医疗诊断、网络日志挖掘、智能家居以及自然灾害检查等领域。如何有效提高顺序模式挖掘的效率以及保证准确性成为了当前研究热点。在顺序模式挖掘研究的初始阶段,Agraw等人提出了Apriori算法。Apriori算法需要不断地对原数据库进行扫描,频繁的I/O读取操作增加了时间开销,加上会产生的大量候选序列,需要更大的内存支持,影响了算法的表现性能。在Apriori算法之后,学者们提出了基于FP树结构的挖掘、基于投影数据库的挖掘和基于位图实现的顺序模式挖掘。这些算法均大幅减少了I/O操作,并且在挖掘过程中利用向下闭包特性减少了候选序列的产生,从而提高了算法的效率。传统的顺序模式挖掘在挖掘的过程中都基于一个假设,即在数据库中不同的项目之间它们的权值是一样的。然而在实际生活中,不同的项目之间会因其价值的不同,导致其重要性存在巨大差异。比如在零售领域,具有高附加价值的商品与利润微薄的日常用品,两者的收益相差甚远。为了使顺序模式挖掘具有更好的代表性,可以在进行挖掘之前对数据库中的项目按照其重要性赋予相应的权值。具体的权值可以由用户根据相关领域知识或是特定的需要自行预设,如项目的收益、优先级、代价来进行考量。通过赋予权值实现的加权频繁序列挖掘,能够挖掘出具有高价值但是低频率的模式,也能过滤掉低价值但是重复出现的低意义模式。然而,引入权值后,传统频繁序列挖掘所维持的向下闭包特性将会被打破,即当前序列P是非加权频繁序列,但P通过拓展之后的超集P’仍有可能是加权频繁序列,由于不能根据向下闭包特性提前对数据集中无期望项集删除从而减小搜索空间,这为加权频繁序列的挖掘带来了巨大的挑战。为了使加权频繁序列挖掘也能实现向下闭包特性,学者们设计了多种模型。Yun等人提出了一种基于数据集中最大权值的上界模型的WFIM算法,通过该上界模型,WFIM算法实现了在挖掘加权频繁序列过程中的向下闭包特性,提高了挖掘的速率;Lin等人在此基础上进一步优化了上界模型,提出了IUA算法,将构成数据集的每一条表项中的最大值作为存在于该表项的序列上界值,进一步提高了上界模型的精度,从而缩短了挖掘的时间。
现有技术公开了一种基于改进PrefixSpan算法的交易数据频繁序列模式挖掘方法,包括步骤:对商品交易数据进行预处理,得到商品交易数据集,并存入交易序列数据库中;扫描交易序列数据库,对每个单项进行计数,得到每个单项的序列支持度并降序排序,选出前μ项且满足最小支持度的单项作为初始前缀;采取深度优先遍历,对第一个初始前缀的位置进行计算,并保存在前缀位置信息表中,生成商品交易投影数据库;再对其进行迭代,直至无法生成新的商品交易投影数据库,保存每个商品交易投影数据库生成的频繁序列模式集合;从第二个初始前缀开始,重复上一步骤,直至所有初始前缀均计算完毕。该申请没有考虑不同商品之间的价值,仅根据商品在交易序列数据库中出现的次数计算支持度,无法过滤低价值重复出现的商品,导致商品组合推荐不准确。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111556654.9/2.html,转载请声明来源钻瓜专利网。





