[发明专利]用于发现文本词间关联规则的完全加权模式挖掘方法有效
申请号: | 201410096985.2 | 申请日: | 2014-03-14 |
公开(公告)号: | CN103838854B | 公开(公告)日: | 2017-03-22 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 广西南宁公平知识产权代理有限公司45104 | 代理人: | 韦锦捷 |
地址: | 530003 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种用于发现文本词间关联规则的完全加权正负模式挖掘方法,通过将待处理的完全加权数据进行预处理,构建完全加权数据库和项目库;挖掘完全加权频繁项集和负项集,剪枝获得有趣的完全加权频繁项集和负项集;采用支持度‑CPIR模型‑相关性‑兴趣度评价框架,挖掘有效的完全加权正负关联规则。本发明能够克服现有加权挖掘技术的缺陷,将项目权值客观分布于数据库中并随事务记录变化的完全加权数据特点融入该发明技术中,获得更加实际合理的完全加权正负关联模式,避免无效的和无趣的关联模式产生,所挖掘的候选项集、频繁项集和负项集以及正负关联规则模式数量均比现有技术挖掘的少,挖掘效率得到极大地提高,并且具有良好的可扩展性。 | ||
搜索关键词: | 用于 发现 文本 关联 规则 完全 加权 模式 挖掘 方法 | ||
【主权项】:
一种用于发现文本词间关联规则的完全加权模式挖掘方法,其特征在于,包括如下步骤:(1)完全加权数据预处理阶段:将待处理的完全加权数据进行预处理,构建完全加权数据库和项目库;(2)完全加权频繁项集和负项集挖掘阶段,包括以下步骤2.1和步骤2.2:2.1、从项目库中提取完全加权候选1_项集,并挖掘完全加权频繁1_项集;具体步骤按照2.1.1~2.1.3进行:2.1.1、从项目库中提取完全加权候选1_项集;2.1.2、累加完全加权候选1_项集在完全加权数据库中的权值总和,计算其支持度;2.1.3、将完全加权候选1_项集中支持度大于或等于最小支持度阈值的完全加权频繁1_项集加入到完全加权频繁项集集合;2.2、从完全加权候选2_项集开始,按照步骤2.2.1~2.2.4进行操作:2.2.1、将完全加权频繁(i‑1)_项集进行Apriori连接,生成完全加权候选i_项集;所述的i≥2;2.2.2、累加完全加权候选i_项集在完全加权数据库中的权值总和,计算其支持度;2.2.3、从完全加权候选i_项集中将其支持度不小于支持度阈值的频繁i_项集取出,存入完全加权频繁项集集合,同时,将其支持度小于支持度阈值的完全加权负i_项集存入完全加权负项集集合;2.2.4、将i的值加1,如果频繁(i‑1)_项集为空就转入(3)步,否则,继续2.2.1~2.2.3步骤;(3)剪枝阶段:通过剪枝阶段获得有趣的完全加权频繁项集和负项集:3.1、对于频繁项集集合中的每一个频繁i‑项集awLi,计算IAWFI(awLi)值,剪除其IAWFI(awLi)值为假的频繁项集,剪枝后得到有趣的完全加权频繁项集集合;IAWFI(awLi)计算公式如下:其中,awItemsetInt(I1∪I2)=awsup(I1)×awsup(I1∪I2)×(1–awsup(I2)),awItemsetInt(﹁I1,﹁I2)=awsup(I2)×(1–awsup(I1))×(1–awsup(I1)–awsup(I2)+awsup(I1∪I2)),minInt为最小兴趣度阈值,minsup最小支持度阈值;3.2、对于完全加权负项集集合中的每一个负i‑项集awNi,计算IAWNI(awNi)值,剪除其IAWNI(awNi)值为假的负项集,剪枝后得到有趣的完全加权负项集集合;IAWNI(awNi)的计算公式如下:其中,awItemsetInt(I1∪I2)=awsup(I1)×awsup(I1∪I2)×(1–awsup(I2));awItemsetInt(I1∪﹁I2)=awsup(I1)×awsup(I2)×(awsup(I1)–awsup(I1∪I2));awItemsetInt(﹁I1∪I2)=(1–awsup(I1))×(1–awsup(I2)×(awsup(I2)–awsup(I1∪I2));awItemsetInt(﹁I1∪﹁I2)=awsup(I2)×(1–awsup(I1))×(1–awsup(I1)–awsup(I2)+awsup(I1∪I2));(4)从有趣的完全加权频繁项集集合中挖掘有效的完全加权正负关联规则,包括以下步骤:4.1、从有趣的完全加权频繁项集集合取出频繁项集awLi,求出awLi的所有真子集,构建awLi的真子集集合,然后进行下列操作:4.2.1、从awLi的真子集集合中任意取出两个真子集I1和I2,当I1和I2的交集为空集,I1和I2的项目个数之和等于其原频繁项集的项目个数,以及I1和I2的支持度都不小于支持度阈值,则计算频繁项集(I1∪I 2)的项内权值比awIWR(I1,I2)及其维数比awIDR(I1,I2);awIWR(I1,I2)及awIDR(I1,I2)的计算公式如下:awIWR(I1,I2)=w12w1×w2;]]>awIDR(I1,I2)=k12k1×k2;]]>w12和w1、w2分别为完全加权项集(I1,I2)及其子项集I1和I2在完全加权数据库AWD中的权值总和,k12,k1和k2分别为项集(I1,I2)及其子项集I1和I2的项目个数;4.2.2、当数据库中事务记录总数n和上述4.2.1步的项内权值比awIWR(I1,I2)的乘积大于其维数比awIDR(I1,I2)时,即n×awIWR(I1,I2)>awIDR(I1,I2)时,进行如下操作:4.2.2.1若I1→I2的awCPIR值awCPIR(I1→I2)不小于置信度阈值minconf,则挖掘出完全加权关联规则I1→I2;若I2→I1的awCPIR值awCPIR(I2→I1)不小于置信度阈值minconf,则挖掘出完全加权关联规则I2→I1;awCPIR(I1→I2)和awCPIR(I2→I1)的计算公式如下:awCPIR(I1→I2)=awsup(I2∪I1)-awsup(I1)awsup(I2)awsup(I1)(1-awsup(I2));]]>awCPIR(I2→I1)=awsup(I2∪I1)-awsup(I1)awsup(I2)awsup(I1)(1-awsup(I1));]]>4.2.2.2若﹁I1∪﹁I2的支持度awsup(﹁I1∪﹁I2)不小于支持度阈值minsup,那么,①如果﹁I1→﹁I2的awCPIR值awCPIR(﹁I1→﹁I2)不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I1→﹁I2;②如果﹁I2→﹁I1的awCPIR值awCPIR(﹁I2→﹁I1)不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I2→﹁I1;awsup(﹁I1∪﹁I2)、awCPIR(﹁I1→﹁I2)和awCPIR(﹁I2→﹁I1)的计算公式如下:awsup(﹁I1∪﹁I2)=awsup(﹁I1∪﹁I2)=1–awsup(I1)–awsup(I2)+awsup(I1∪I2);4.2.3、当数据库中事务记录总数n和上述4.2.1步的项内权值比awIWR(I1,I2)的乘积小于其维数比awIDR(I1,I2)时,即n×awIWR(I1,I2)<awIDR(I1,I2)时,进行如下操作:4.2.3.1若I1∪﹁I2的支持度awsup(I1∪﹁I2)不小于支持度阈值minsup,那么,①如果I1→﹁I2的awCPIR值awCPIR(I1→﹁I2)不小于置信度阈值minconf,则挖掘出完全加权负关联规则I1→﹁I2;②如果﹁I2→I1的awCPIR值awCPIR(﹁I2→I1)不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I2→I1;awsup(I1∪﹁I2)、awCPIR(I1→﹁I2)和awCPIR(﹁I2→I1)的计算公式如下:awsup(I1→﹁I2)=awsup(I1∪﹁I2)=awsup(I1)–awsup(I1∪I2);4.2.3.2若﹁I1∪I2的支持度awsup(﹁I1∪I2)不小于支持度阈值minsup,那么,①如果﹁I1→I2的awCPIR值awCPIR(﹁I1→I2)不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I1→I2;②如果I2→﹁I1的awCPIR值awCPIR(I2→﹁I1)不小于置信度阈值minconf,则挖掘出完全加权负关联规则I2→﹁I1;awsup(﹁I1∪I2)、awCPIR(﹁I1→I2)和awCPIR(I2→﹁I1)的计算公式如下:awsup(﹁I1→I2)=awsup(﹁I1∪I2)=awsup(I2)–awsup(I1∪I2);4.2.4、继续4.2.1~4.2.3步骤,如果awLi的真子集集合中每个真子集都当且仅当被取出一次,则转入4.2.5步;4.2.5,继续4.1步骤,如果有趣的完全加权频繁项集集合中每个频繁项集awLi都当且仅当被取出一次,则转入第(5)步;(5)从有趣的完全加权负项集集合中挖掘有效的完全加权负关联规则,包括以下步骤:5.1、从有趣的完全加权负项集集合取出负项集awNi,求出awNi的所有真子集,构建awNi的真子集集合,然后进行下列操作:5.2.1、从awNi的真子集集合中任意取出两个真子集I1和I2,当I1和I2的交集为空集,I1和I2的项目个数之和等于其原频繁项集的项目个数,以及I1和I2的支持度都大于或者等于支持度阈值,则计算负项集I1∪I2的项内权值比awIWR(I1,I2)及其维数比awIDR(I1,I2);5.2.2、当数据库中事务记录总数n和上述5.2.1步的项内权值比awIWR(I1,I2)的乘积大于其维数比awIDR(I1,I2)时,即n×awIWR(I1,I2)>awIDR(I1,I2)时,进行如下操作:5.2.2.1若﹁I1∪﹁I2的支持度大于或者等于支持度阈值minsup,那么,①如果﹁I1→﹁I2的awCPIR值awCPIR(﹁I1→﹁I2)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I1→﹁I2;②如果﹁I2→﹁I1的awCPIR值awCPIR(﹁I2→﹁I1)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I2→﹁I1;5.2.3、当数据库中事务记录总数n和上述5.2.1步的项内权值比awIWR(I1,I2)的乘积小于其维数比awIDR(I1,I2)时,即n×awIWR(I1,I2)<awIDR(I1,I2)时,进行如下操作:5.2.3.1若I1∪﹁I2的支持度大于或者等于支持度阈值minsup,那么,①如果I1→﹁I2的awCPIR值awCPIR(I1→﹁I2)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则I1→﹁I2;②如果﹁I2→I1的awCPIR值awCPIR(﹁I2→I1)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I2→I1;5.2.3.2若﹁I1∪I2的支持度大于或者等于支持度阈值minsup,那么,①如果﹁I1→I2的awCPIR值awCPIR(﹁I1→I2)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I1→I2;②如果I2→﹁I1的awCPIR值awCPIR(I2→﹁I1)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则I2→﹁I1;5.2.4、继续5.2.1~5.2.3步骤,如果awNi的真子集集合中每个真子集都当且仅当被取出一次,则转入5.2.5步;5.2.5、继续5.1步骤,如果有趣的完全加权负项集集合中每个负项集awNi都当且仅当被取出一次,则完全加权正负关联规则挖掘结束;“﹁”为负相关符号,﹁I1表示在事务处理中不出现I1的事件,称为负项集I1;I 1∪﹁I2表示一个项集,该项集有子项集I1和负子项集I2;关联规则I1→﹁I2其含义是:如果子集I1的事件出现或者发生,那么子集I2的事件不会出现或者不发生。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410096985.2/,转载请声明来源钻瓜专利网。