[发明专利]一种基于独立概率完全加权的并行关联规则挖掘方法在审
申请号: | 202111515043.X | 申请日: | 2021-12-13 |
公开(公告)号: | CN114185970A | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 李成严;李鑫宇;张磊 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22;G06F16/33 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 独立 概率 完全 加权 并行 关联 规则 挖掘 方法 | ||
1.一种基于独立概率完全加权的并行关联规则挖掘方法,其特征在于对数据进行了预处理操作及依赖于数据集的独立概率权值计算和前缀划分原则。预处理操作及依赖于数据集的独立概率权值计算中包含了数据库的类型判断及形式转换,权值计算操作及过滤操作并以位图保存TidSet。对于数据库的类型判断及形式转换,就是将水平数据库形式转换为垂直数据库形式,将数据库操作转换为基于内存的集合计算;对于权值计算,就是通过该项在当前数据集中的独立出现频次进行计数,在剪枝操作中参与计算候选项集的加权支持度;对于过滤操作,就是在映射出所有的候选项集时,过滤掉不满足最小加权支持度阈值的候选项集,得到有效候选项集从而加快方法运行效率;对于位图保存TidSet操作,就是在有关于项集存储时直接将每个事务所对应的TidSet用位图来保存,以便于后续加快求交集的速度,提高运行效率。前缀划分原则可以在计算频繁K-项集时将候选项集规模控制为2-项规模,根据此原则可以大幅减少要遍历数据集的大小,并保证结果可靠性,以此提高运行效率。具体包括:
基于独立概率完全加权的并行关联规则挖掘方法包括:
步骤1:给出方法的数据集输入路径,关联规则输出路径,最小加权支持度;
步骤2:对数据集形式进行判断,如果不是垂直形式则转换成垂直形式;
步骤3:对垂直数据集中的项进行独立概率权值计算并用位图保存所有项的TidSet;
步骤4:以最小加权支持度阈值为依据,对候选1-项集进行过滤得到加权频繁1-项集;
步骤5:映射出所有候选2-项集并进行权值计算,最后过滤得到加权频繁2-项集;
步骤6:迭代地对当前加权频繁项集执行前缀划分方法和计算加权频繁2-项集,得到加权频繁K-项集(K2)。
2.权利要求1中提到的数据库形式转换就是将数据库存储的数据形式将水平数据库形式即Tid:itemID形式,转化为垂直数据库形式即itemID:Tid形式,这样可以将数据库之间的运算转换为集合之间的运算。
3.权利要求1中提到的独立概率权值计算就是对所有事务编号进行计数,即为该项在数据集中的出现频数TidSetCount作为该项的权值参与进项集加权支持度的计算过程中,这样能达到挖掘出隐藏在数据库具有高价值性规则的目的。
4.权利要求1中提到的位图保存加权频繁项集TidSet,就是使用位图保存就可以将原来的集合之间的运算转换到位图之间的计算。位图是一种基于内存的特殊数据结构,将加权频繁项集TidSet中的每一个值在位图的对应位置上存入1就达到了存储加权频繁项集TidSet的目的,在进行两个加权频繁项集之间的交集运算时只需要进行位运算,这样可以在数据量比较大的情况下也能很好的保持其快速的特点,大大的提高了方法的运行效率。
5.权利要求1中提到的对加权频繁K-项集生成时进行前缀划分,就是在加权频繁K-项集(K2)的迭代计算中当获取到加权频繁2-项集时要对加权频繁2-项集进行前缀划分,这时提取的前缀规模为1,提取后的剩余部分再次进行一次加权频繁2-项集运算,得到新的加权频繁2-项集,再与之前规模为1的前缀进行拼接就得到了加权频繁3-项集。以此类推,对加权频繁K-项集(K2)计算时,只需对加权频繁(K-1)-项集进行前缀划分,然后对每个加权频繁项集剩余的第K项进行步骤5的运算得到加权频繁2-项集。再与对应的前缀项集进行拼接即得到了加权频繁K-项集,这样可以将加权频繁K-项集的计算规模减少到频繁3-项集的规模,从而提高方法的运行效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111515043.X/1.html,转载请声明来源钻瓜专利网。