[发明专利]关联性规则挖掘方法、装置及存储介质在审
申请号: | 202210103069.1 | 申请日: | 2022-01-27 |
公开(公告)号: | CN114625776A | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 邓柯 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/2455 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;曹素云 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联性 规则 挖掘 方法 装置 存储 介质 | ||
本发明公开一种关联性规则挖掘方法、装置及存储介质,方法包括:给定关联性规则的最大长度、关联性规则的最小出现频次和观测数据,对观测数据生成初始关联性规则词典并从所述初始关联性规则词典中删除长度大于1的来自同一类别的关联性规则,得到初筛关联性规则词典执行最大期望算法估计初筛关联性规则词典中所有关联性规则的真实概率值θ,计算每一关联性规则的得分函数,并从初筛关联性规则词典中移除得分函数小于阈值τS的所有关联性规则,返回执行最大期望算法,循环执行直至中每一关联性规则的得分函数不小于阈值τS,获得跨类别的关联性规则词典。本发明可以获得跨类别的关联性规则词典,并解决元素的数量缺失的问题。
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种关联性规则挖掘方法、装置及存储介质。
背景技术
随着互联网的迅速普及,各个应用领域的数据库都存储着海量数据,包括文本数据、图像数据、语音数据等。通过数据挖掘技术可以从海量数据中提取潜在的、具有价值的知识,提取的知识包括概念、规则、规律等。关联规则挖掘(Association Rule Mining/Association Pattern Discovery)是数据挖掘研究的重要方向之一,它反映了事物之间的关联关系,在电商、生物信息学、社会科学、医学等领域有广泛的应用。关联规则的一个典型应用是购物篮分析(Market Basket Analysis),即通过分析顾客购物篮中的商品,挖掘商品之间的关联性,实现智能推荐。在生物信息领域,通过研究生物体不同组织结构中合成蛋白质的氨基酸,找到关联性强的氨基酸组合,分析多个氨基酸组合的功能,进一步将蛋白质分解成多个氨基酸组合的功能模块;在社会科学领域,人们借助期刊论文数据,分析不同研究者在特定研究领域的合作关系;在医学领域,研究者们需要从大量电子病历(EMRs,Electronic Medical Records)中挖掘不同症状之间的关联性,判断某些症状组合是否为并发症,或是挖掘不同药物之间的关联性,判断某些药物组合是否有相互作用,或是挖掘症状和药物之间的关联性,进行辅助诊断等。有效的关联规则挖掘方法可以处理体量更大、结构更复杂的数据,挖掘的关联规则具有更高的应用价值。
现有的关联规则挖掘方法主要是一些计算机领域的无模型的快速算法,例如Apriori算法、Elcat算法、FP-Growth算法。这些无模型的算法会产生一些不相关的规则,也不能从信号较弱的数据中有效挖掘包含多个元素的关联规则。也有研究者提出了一些基于概率生成模型方法,如主题词典模型(TDM,Theme Dictionary Model),即把由一些元素构成的关联规则看做主题(theme),通过从主题词典(theme dictionary)中抽取主题构成数据记录(records)。但TDM不适用于从以下两种类型的数据中有效挖掘关联规则:
第一种类型的数据中包含元素的类别信息,如期刊数据包含标题和作者两个类别,EMR数据包含症状和方药两个类别,由于传统的主题词典模型忽略这些类别信息,导致挖掘出的大部分关联规则只包含同类别的元素;
第二种类型的数据中每个记录只能观测到元素是否出现,元素的数量是缺失的,例如EMR数据的方药剂量缺失。因此迫切需要提出新的方法挖掘复杂数据的关联性规则,解决此类实际问题。
发明内容
本发明利用统计学方法从复杂数据中输出跨类别的关联性规则,在电商、生物信息学、社会科学、医学等领域有应用价值。本发明采用技术方案如下:
一种关联性规则挖掘方法,用于获得跨类别的关联性规则,包括:
给定关联性规则的最大长度、关联性规则的最小出现频次和包含n个样本的观测数据对观测数据生成初始关联性规则词典并从所述初始关联性规则词典中删除长度大于1的来自同一类别的关联性规则,得到初筛关联性规则词典
执行最大期望算法估计初筛关联性规则词典中所有关联性规则的真实概率值θ,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210103069.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:真空离子富集方法
- 下一篇:周期信号的抗谐波干扰的相位检测方法及装置