[发明专利]基于改进ORAR算法的关联规则推荐系统在审
申请号: | 201610157972.0 | 申请日: | 2016-03-18 |
公开(公告)号: | CN107203566A | 公开(公告)日: | 2017-09-26 |
发明(设计)人: | 刘陈伟;陈曙东;辛欣 | 申请(专利权)人: | 刘陈伟 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 214000 江苏省无锡市新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 orar 算法 关联 规则 推荐 系统 | ||
技术领域
本发明涉及一套基于改进ORAR算法的关联规则推荐系统,是一种基于关系代数理论,利用关系矩阵及相关运算寻找出关联规则的推荐系统。该系统在实现ORAR算法的过程中,将支持度及对应的偏好标签存储在一个名字空间矩阵内,同时通过置信度求解函数求解出相应的置信度从而求解出关联规则。属于数据挖掘领域。
背景技术
随着“啤酒、尿布”案例在营销届的成功运用,人们对不断收集的数据中关联规则的挖掘原来越感兴趣,关联规则的应用范围也逐渐从超市营销扩展到更多的领域。当前的关联规则挖掘算法主要有Apriori和ORAR等,Apriori算法会产生大量的候选集,需要重复扫描数据库,效率低下。ORAR算法利用关系矩阵进行计算,只需扫描一遍数据库,效率较高。但是仍然存在一系列的问题。例如,不易查找频繁项集对应的支持度,求不出强规则等。
发明内容
本发明的目的是克服现有技术中存在的不足,提供一种基于改进ORAR算法的关联规则推荐系统,本发明扩充了ORAR关联规则算法,将大于支持度阈值的频繁项集的各个偏好标签与其对应的支持度存储在一个名字空间矩阵内。能够快速的找出支持度从而求解出置信度。在利用ORAR只需扫描一遍数据库的优点之上解决了ORAR无法求出置信度的缺点,从而为企业、商家提供更为高效、方便的关联规则挖掘业务,具有较大实用价值。
本发明提出的基于改进ORAR算法的关联规则挖掘系统,包括数据预处理模块、、1大项集生成模块、2大项集生成模块、k大项集生成模块和关联规则生成模块。所述数据预处理模块与数据库交互,负责将数据库的文本转换为适合运算的关系矩阵。所述1大项集生成模块、2大项集生成模块、k大项集生成模块共同构成ORAR算法的具体实现,负责频繁项集的生成和支持度的计算;所述关联规则生成模块与支持度求解模块交互,负责根据支持度求解模块生成的支持度求出置信度从而转化为具体的关联规则。
本法明的优点在于:将大于支持度阈值的频繁项集的各个偏好标签与其对应的支持度存储在一个名字空间矩阵内。在求解关联规则的置信度时,编写求解函数。根据偏好标签查找名字空间矩阵,再找出与偏好标签相匹配的支持度,代入置信度公式求解。在充分利用ORAR算法只需扫描一遍数据库的优点,解决了ORAR算法存在的不易查找频繁项集对应的支持度,求不出强规则等问题。提高了关联规则挖掘的效率。
附图说明
图1为本发明的结构框图。
图2为本发明的工作流程图。
具体实施方式
下面结合具体附图和实施例对本发明作进一步说明。
本发明提出的基于改进ORAR算法的关联规则挖掘系统,包括数据预处理模块、1大项集生成模块、2大项集生成模块、k大项集生成模块和关联规则生成模块。所述数据预处理模块与数据库交互,负责将数据库的文本转换为适合运算的关系矩阵。所述1大项集生成模块、2大项集生成模块、k大项集生成模块共同构成ORAR算法的具体实现,负责频繁项集的生成和支持度的计算;所述关联规则生成模块与支持度求解模块交互,负责根据支持度求解模块生成的支持度求出置信度从而转化为具体的关联规则。
具体地、所述数据预处理模块需要扫描数据库,设D是事务数据库,T={t1,t2,…,tm}和I={i1,i2,…,in}分别为数据库中的交易集和项集,得到互相关矩阵
其中i=1,2,…,m,j=1,2,…,n。R为从T到I的二元关系矩阵,I就是使用频率,T就是采样次数。
设某特征子集对应的集合为一个关系数据库的子集DBi,若DBi中有m条记录和n个项,则通过扫描一次数据库,构造互相关矩阵
其中i=1,2,…,m,j=1,2,…,n。rij的值为1或0,分别表示第i个事务中包含或未包含第j个项。
所述1大项集生成模块、2大项集生成模块、k大项集生成模块主要针对现有的ORAR算法进行了改进,目前的ORAR算法只能在给出最小支持度阈值基础上求解频繁项集,通过判定支持度是否大于最小支持度来确定该频繁项集的保留与丢弃,但并没有将该频繁项集与其对应的支持度存储在同一名字空间内。因此难以查找各频繁项集对应的支持度,无法求解各关联规则对应的置信度及强规则。
针对以上不足,对ORAR算法进行了如下改进:
将大于支持度阈值的频繁项集的各个偏好标签与其对应的支持度存储在一个名字空间矩阵内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘陈伟,未经刘陈伟许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610157972.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能逃生器
- 下一篇:一种折叠式手持电动洗车工具