[发明专利]关联性规则挖掘方法、装置及存储介质在审
申请号: | 202210103069.1 | 申请日: | 2022-01-27 |
公开(公告)号: | CN114625776A | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 邓柯 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/2455 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;曹素云 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联性 规则 挖掘 方法 装置 存储 介质 | ||
1.一种关联性规则挖掘方法,用于获得跨类别的关联性规则,其特征在于,包括:
给定关联性规则的最大长度、关联性规则的最小出现频次和包含n个样本的观测数据对观测数据生成初始关联性规则词典并从所述初始关联性规则词典中删除长度大于1的来自同一类别的关联性规则,得到初筛关联性规则词典
执行最大期望算法估计初筛关联性规则词典中所有关联性规则的真实概率值θ,
计算每一关联性规则的得分函数ψ(α),并从初筛关联性规则词典中移除得分函数小于阈值τS的所有关联性规则,返回执行最大期望算法,循环执行直至初筛关联性规则词典中每一关联性规则的得分函数ψ(α)不小于阈值τS,获得跨类别的关联性规则词典。
2.根据权利要求1所述的关联性规则挖掘方法,其特征在于,采用Apriori算法对观测数据生成初始关联性规则词典
3.根据权利要求1所述的关联性规则挖掘方法,其特征在于,关联性规则的长度是指关联性规则的元素数量。
4.根据权利要求1所述的关联性规则挖掘方法,其特征在于,所述最大期望算法包含E步和M步,对于初筛关联性规则词典用公式1求解最大期望算法的E步:
再用公式2求解EM算法的M步,得到估计量θ(r+1):
θ(r+1)=argmax Q(θ|θ(r)), (2)
其中
θ表示中所有关联性规则的真实概率值;
θ(r)表示算法迭代至第r步所有关联性规则的概率估计值;
Ωi表示第i个观测数据Oi对应的关联性规则的分解集合;
S是Ωi中的任意一个分解,
所述分解是根据观测数据Oi,由初筛关联性规则词典构造的关联性规则集合,分解中的元素种类总和等于观测数据Oi中的元素种类总和,其中,如果Oi中元素数量没有缺失,则每个分解中元素出现次数仅为1,如果Oi中元素数量有缺失,则每个分解的元素出现次数大于等于1。
5.根据权利要求4所述的关联性规则挖掘方法,其特征在于,通过设置分解组来使得分解集合的结构紧凑,所述分解组是指,若分解S的子集S*满足对任意关联性规则α∈S*,不存在关联性规则β∈S*,使得且S和S*包含的元素种类相同,则称S*为分解S的覆盖分解,定义为所有与S*包含的元素种类相同的分解S构成的集合称为分解组,令表示第i个观测数据Oi对应的关联性规则的分解组集合,从而将最大期望算法从Ωi空间转换到空间来计算,即:
6.根据权利要求5所述的关联性规则挖掘方法,其特征在于,所述计算每一关联性规则的得分函数ψ(α),包括:
对每一关联性规则用公式3计算得分函数ψ(α):
其中表示移除关联性规则α后的概率集合,ψ(α)表示保留关联性规则α与移除关联性规则α后的对数似然比统计量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210103069.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:真空离子富集方法
- 下一篇:周期信号的抗谐波干扰的相位检测方法及装置