[发明专利]文本词间完全加权正负关联模式挖掘方法及其挖掘系统有效
申请号: | 201410213073.9 | 申请日: | 2014-05-20 |
公开(公告)号: | CN103955542B | 公开(公告)日: | 2017-03-22 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广西南宁公平知识产权代理有限公司45104 | 代理人: | 韦锦捷 |
地址: | 530003 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种文本词间完全加权正负关联模式挖掘方法及其挖掘系统,利用中文文本预处理模块进行预处理,构建文本数据库和特征词项目库;利用特征词频繁项集和负项集挖掘实现模块从文本数据库中挖掘完全加权特征词候选项集,计算权重维数比,采用多兴趣度阈值剪枝策略剪除无趣的项集,得出有趣的完全加权特征词频繁项集和负项集模式;利用完全加权词间正负关联规则挖掘实现模块从频繁项集和负项集中挖掘有效的完全加权特征词正负关联规则模式,利用完全加权词间关联模式结果显示模块将挖掘到的正负关联规则模式输出给用户。本发明能够大幅度减少不必要的频繁项集、负项集和关联规则模式产生,提高中文特征词关联规则挖掘效率,获得高质量的中文词间关联模式。 | ||
搜索关键词: | 文本 完全 加权 正负 关联 模式 挖掘 方法 及其 系统 | ||
【主权项】:
一种文本词间完全加权正负关联模式挖掘方法,其特征在于,包括如下步骤:(1)中文文本数据预处理:将待处理的中文文本数据进行预处理:分词、去除停用词、提取特征词及其权值计算,同时,计算最小项集权重维数比阈值minwdR;中文文本数据预处理的结果是构建中文文本数据库Text database,即TD,以及特征词项目库;最小项集权重维数比阈值minwdR计算公式是:minwdR=n×minsup,n为中文文本数据库记录数,minsup为最小支持度阈值;特征词权值计算公式是:wij=(0.5+0.5×tfij/maxj(tfij))×idfi,其中,wij为第i个特征词在第j篇文档的权值,tfij为第i个特征词在第j篇文档的词频,idfi为第i个特征词的逆向文档频度,其值idfi=log(N/dfi),N为文档集中文档总数,dfi为含有第i个特征词的文档数量;(2)挖掘完全加权特征词频繁项集和负项集,包括以下步骤2.1和步骤2.2:2.1、从特征词项目库中提取特征词候选1_项集C1,并挖掘完全加权特征词频繁1_项集L1;具体步骤按照2.1.1~2.1.3进行:2.1.1、从特征词项目库中提取特征词候选1_项集C1;2.1.2、累加特征词候选1_项集C1在中文文本数据库TD中的权值总和计算其项集权重维数比wdR(C1);wdR(C1)=wC1]]>其中,是特征词候选1_项集C1在TD中的权值总和;2.1.3、将特征词候选1_项集C1中其项集权重维数比wdR(C1)大于或等于最小项集权重维数比阈值minwdR即wdR(C1)≥minwdR的频繁1_项集L1加入到特征词频繁项集集合termPIS;2.2、从完全加权特征词候选2_项集开始,按照步骤2.2.1~2.2.4进行操作:2.2.1、将特征词频繁(i‑1)_项集进行Apriori连接,生成特征词候选i_项集Ci;其中i≥2;2.2.2、累加特征词候选i_项集Ci在中文文本数据库TD中的权值总和以及计算其项集权重维数比wdR(Ci);wdR(Ci)=wCik]]>其中,是特征词候选i_项集Ci在TD中的权值总和,k为特征词候选i_项集Ci的项目个数;2.2.3、特征词候选i_项集的项集权重维数比wdR(Ci)与最小项集权重维数比阈值minwdR比较,将特征词候选i_项集中其项集权重维数比不小于最小项集权重维数比阈值即wdR(Ci)≥minwdR的特征词频繁i‑项集Li取出,存入特征词频繁项集集合termPIS,同时,将其项集权重维数小于支最小项集权重维数比阈值即wdR(Ci)<minwdR的特征词负i_项集Ni存入特征词负项集集合termNIS;2.2.4、将i的值加1,当特征词频繁(i‑1)_项集Li‑1为空就转入(3)步,否则,继续2.2.1~2.2.3步骤;(3)特征词频繁项集和负项集剪枝:3.1、对于特征词频繁项集集合termPIS中的每一个频繁i‑项集Li,根据最小频繁项集兴趣度阈值minFIInt,计算InterestingFI(Li,minFIInt)值,剪除其InterestingFI(Li,minFIInt)值为假false的频繁项集,剪枝后得到新的特征词频繁项集集合termPIS;InterestingFI(Lk,minFIInt)的计算公式如下:其中,wdR(I1)、wdR(I2)、awAPInt(I1,I2)和awAPInt(﹁I1,﹁I2)的计算公式如下:是项集I1在TD中的权值总和,k1为项集I1的项目个数;是项集I2在TD中的权值总和,k1为项集I2的项目个数;其中,n为文本数据库TD记录数,是项集Li=(I1∪I2)在TD中的权值总和,k为项集Li=(I1∪I2)的项目个数;3.2、对于特征词负项集集合termNIS中的每一个负i‑项集Ni,根据最小负项集兴趣度阈值minNIInt,计算InterestingNI(Ni,minNIInt)值,剪除其InterestingNI(Ni,minNIInt)值为假false的负项集,剪枝后得到新的特征词负项集集合;InterestingNI(Nk,minNIInt)的计算公式如下:其中,wdR(I1)、wdR(I2)和awAPInt(﹁I1,﹁I2)的计算公式同3.1的,awAPInt(I1,﹁I2)和awAPInt(﹁I1,I2)的计算公式如下:(4)从特征词频繁项集集合中挖掘有效的完全加权特征词正负关联规则,包括以下步骤:4.1、从特征词频繁项集集合termPIS取出特征词频繁项集Li,求出Li的所有真子集,构建Li的真子集集合,然后进行下列操作:4.2.1、从Li的真子集集合中任意取出两个真子集I1和I2,当I1和I2没有交集即并且它们的项目个数之和等于其原频繁项集的项目个数即I1∪I2=Li,则分别计算特征词频繁项集I1∪I2、I1和I2的项集权重维数比wdR(I1∪I2)、wdR(I1)和wdR(I2);wdR(I1∪I2)、wdR(I1)和wdR(I2)的计算公式同步骤3.1;4.2.2、当I1和I2的项集权重维数比都不小于最小项集权重维数比阈值minwdR即wdR(I1)≥minwdR且wdR(I2)≥minwdR,以及中文文本数据库记录总数n和上述步骤4.2.1的特征词频繁项集I1∪I2的项集权重维数比wdR(I1∪I2)的乘积大于I1和I2的项集权重维数比wdR(I1)和wdR(I2)的乘积时即n×wdR(I1∪I2)>wdR(I1)×wdR(I2),进行如下操作,所述的wdR(I1∪I2)、wdR(I1)和wdR(I2)计算公式同步骤3.1;4.2.2.1当特征词频繁项集(I1,I2)的兴趣度awAPInt(I1,I2)不小于最小频繁项集兴趣度阈值minFIInt即awAPInt(I1,I2)≥minFIInt,且I1→I2的概率比awARPR(I1→I2)以及I2→I1的概率比awARPR(I2→I1)都不小于置信度阈值minconf即awARPR(I1→I2)≥minconf,awARPR(I2→I1)≥minconf,则挖掘出特征词关联规则I1→I2和I2→I1;awAPInt(I1,I2)的计算公式同步骤3.1;awARPR(I1→I2)和awARPR(I2→I1)计算公式如下:awARPR(I1→I2)=n×wdR(I2∪I1)-wdR(I1)wdR(I2)wdR(I1)(n-wdR(I2))]]>awARPR(I2→I1)=n×wdR(I2∪I1)-wdR(I1)wdR(I2)wdR(I2)(n-wdR(I1))]]>4.2.2.2当特征词负项集(﹁I1,﹁I2)的兴趣度awAPInt(﹁I1,﹁I2)不小于最小负项集兴趣度阈值minNIInt即awAPInt(﹁I1,﹁I2)≥minNIInt,并且(﹁I1,﹁I2)的支持度awsup(﹁I1,﹁I2)不小于支持度阈值minsup即awsup(﹁I1∪﹁I2)≥minsup,﹁I1→﹁I2的概率比awARPR(﹁I1→﹁I2)以及﹁I2→﹁I1的概率比awARPR(﹁I2→﹁I1)都不小于置信度阈值minconf即awARPR(﹁I1→﹁I2)≥minconf,awARPR(﹁I2→﹁I1)≥minconf,则挖掘出特征词负关联规则﹁I1→﹁I2和﹁I2→﹁I1;awARPR(﹁I1→﹁I2)和awARPR(﹁I2→﹁I1)的计算公式如下:4.2.3、当I1和I2的项集权重维数比都不小于最小项集权重维数比阈值minwdR即wdR(I1)≥minwdR,wdR(I2)≥minwdR,以及中文文本数据库中事务记录总数n和上述步骤4.2.1的特征词频繁项集(I1∪I2)的项集权重维数比wdR(I1∪I2)的乘积小于I1和I2的项集权重维数比wdR(I1)和wdR(I2)的乘积时即n×wdR(I1∪I2)<wdR(I1)×wdR(I2),进行如下操作,所述的wdR(I1∪I2)、wdR(I1)和wdR(I2)计算公式同步骤3.1;4.2.3.1当特征词负项集(I1∪﹁I2)的支持度不小于支持度阈值minsup即awsup(I1∪﹁I2)≥minsup,并且I1∪﹁I2的兴趣度awAPInt(I1,﹁I2)不小于最小负项集兴趣度阈值minNIInt即awAPInt(I1,﹁I2)≥minNIInt,I1→﹁I2的概率比awARPR(I1→﹁I2)以及﹁I2→I1的概率比awARPR(﹁I2→I1)都不小于置信度阈值minconf即awARPR(I1→﹁I2)≥minconf,awARPR(﹁I2→I1)≥minconf,则挖掘出特征词负关联规则I1→﹁I2和﹁I2→I1;4.2.3.2当特征词负项集(﹁I1∪I2)的支持度不小于支持度阈值minsup即awsup(﹁I1∪I2)≥minsup,并且﹁I1∪I2的兴趣度awAPInt(﹁I1,I2)不小于最小负项集兴趣度阈值minNIInt即awAPInt(﹁I1,I2)≥minNIInt,﹁I1→I2的概率比awARPR(﹁I1→I2)以及I2→﹁I1的概率比awARPR(I2→﹁I1)都不小于置信度阈值minconf即awARPR(﹁I1→I2)≥minconf,awARPR(I2→﹁I1)≥minconf,则挖掘出特征词负关联规则﹁I1→I2和I2→﹁I1;4.2.4、继续4.2.1~4.2.3步骤,当特征词频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤4.2.5;4.2.5,继续4.1步骤,当特征词频繁项集集合中每个频繁项集Li都被取出一次,而且仅能取出一次,则转入第(5)步;(5)从特征词负项集集合termNIS中挖掘有效的完全加权特征词负关联规则,包括以下步骤:5.1、从特征词负项集集合termPIS取出特征词负项集Ni,求出Ni的所有真子集,构建Ni的真子集集合,然后进行下列操作:5.2.1、从Ni的真子集集合中任意取出两个真子集I1和I2,I1和I2没有交集即并且它们的项目个数之和等于其原频繁项集的项目个数即I1∪I2=Ni,则分别计算特征词负项集(I1∪I2)、I1和I2的项集权重维数比wdR(I1∪I2)、wdR(I1)和wdR(I2);wdR(I1∪I2)、wdR(I1)和wdR(I2)的计算公式同步骤3.1;5.2.2、当I1和I2的项集权重维数比都不小于最小项集权重维数比阈值minwdR即wdR(I1)≥minwdR,wdR(I2)≥minwdR,以及中文文本数据库记录总数n和上述步骤5.2.1的特征词负项集(I1∪I2)的项集权重维数比wdR(I1∪I2)的乘积大于I1和I2的项集权重维数比wdR(I1)和wdR(I2)的乘积时即n×wdR(I1∪I2)>wdR(I1)×wdR(I2),进行如下操作:当(﹁I1,﹁I2)的支持度awsup(﹁I1,﹁I2)不小于支持度阈值minsup即awsup(﹁I1∪﹁I2)≥minsup,并且特征词负项集(﹁I1,﹁I2)的兴趣度awAPInt(﹁I1,﹁I2)不小于最小负项集兴趣度阈值minNIInt即awAPInt(﹁I1,﹁I2)≥minNIInt,﹁I1→﹁I2的概率比awARPR(﹁I1→﹁I2)以及﹁I2→﹁I1的概率比awARPR(﹁I2→﹁I1)都不小于置信度阈值minconf即awARPR(﹁I1→﹁I2)≥minconf,awARPR(﹁I2→﹁I1)≥minconf,则挖掘出特征词负关联规则﹁I1→﹁I2和﹁I2→﹁I1;awARPR(﹁I1→﹁I2)和awARPR(﹁I2→﹁I1)的计算公式同步骤4.2.2.2;5.2.3、当I1和I2的项集权重维数比都不小于最小项集权重维数比阈值minwdR即wdR(I1)≥minwdR,wdR(I2)≥minwdR,以及中文文本数据库记录总数n和上述步骤5.2.1的特征词负项集(I1∪I2)的项集权重维数比wdR(I1∪I2)的乘积小于I1和I2的项集权重维数比wdR(I1)和wdR(I2)的乘积即n×wdR(I1∪I2)<wdR(I1)×wdR(I2)时,进行如下操作:5.2.3.1当特征词负项集(I1∪﹁I2)的支持度不小于支持度阈值minsup即awsup(I1∪﹁I2)≥minsup,并且(I1∪﹁I2)的兴趣度awAPInt(I1,﹁I2)不小于最小负项集兴趣度阈值minNIInt即awAPInt(I1,﹁I2)≥minNIInt,I1→﹁I2的概率比awARPR(I1→﹁I2)以及﹁I2→I1的概率比awARPR(﹁I2→I1)都不小于置信度阈值minconf即awARPR(I1→﹁I2)≥minconf,awARPR(﹁I2→I1)≥minconf,则挖掘出特征词负关联规则I1→﹁I2和﹁I2→I1;5.2.3.2当特征词负项集(﹁I1∪I2)的支持度不小于支持度阈值minsup即awsup(﹁I1∪I2)≥minsup,并且(﹁I1∪I2)的兴趣度awAPInt(﹁I1,I2)不小于最小负项集兴趣度阈值minNIInt即awAPInt(﹁I1,I2)≥minNIInt,﹁I1→I2的概率比awARPR(﹁I1→I2)以及I2→﹁I1的概率比awARPR(I2→﹁I1)都不小于置信度阈值minconf即awARPR(﹁I1→I2)≥minconf,awARPR(I2→﹁I1)≥minconf,则挖掘出特征词负关联规则﹁I1→I2和I2→﹁I1;5.2.4、继续5.2.1~5.2.3步骤,当特征词Ni的真子集集合中每个真子集都当且仅当被取出一次,则转入步骤5.2.5;5.2.5,继续5.1步骤,当特征词负项集集合中每个负项集Ni都当且仅当被取出一次,则特征词正负关联规则模式挖掘结束;至此,完全加权正负关联规则挖掘结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410213073.9/,转载请声明来源钻瓜专利网。