[发明专利]基于项集权值比较的模式挖掘和混合扩展的文本检索方法有效
申请号: | 201811649207.6 | 申请日: | 2018-12-30 |
公开(公告)号: | CN109684465B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于项集权值比较的模式挖掘和混合扩展的文本检索方法,首先用户查询首次检索得到初检前列文档,构建并预处理初检相关文档集,通过比较项集权值挖掘含有原查询词项的频繁项集,通过项集中最小项目的项集权值和最大项目的项集权值的比值、项集的项目权值最大者或最大项目权值对候选项集剪枝,通过计算卡方值和置信度值从频繁项集提取含有原查询词项的关联规则,将那些后件是原查询词项的关联规则前件以及前件是原查询词项的关联规则后件作为扩展词,扩展词与原查询词组合为新查询再次检索文档集得到最终检索结果文档返回给用户。本发明采用基于项集权值比值的剪枝和混合扩展技术,检索性能得到改善和提升,应用价值高,推广前景广阔。 | ||
搜索关键词: | 基于 集权 比较 模式 挖掘 混合 扩展 文本 检索 方法 | ||
【主权项】:
1.基于项集权值比较的模式挖掘和混合扩展的文本检索方法,包括下列步骤:步骤1.用户查询首次检索文档得到初检结果,用户对初检结果进行相关反馈判断得到初检相关文档集,预处理所述初检相关文档集,具体步骤如下:(1.1)用户查询首次检索文档集得到初检前列文档;(1.2)用户对初检前列文档进行相关性判断得到初检相关文档,构建初检相关文档集;(1.3)预处理初检相关文档集,构建文档索引库和特征词库;步骤2.结合原查询词项,挖掘含有原查询词项的特征词频繁项集,并进行项集剪枝,具体步骤如下:(2.1)从特征词库中提取特征词作为1_候选项集C1;(2.2)扫描文档索引库,统计文档总数n和统计C1的项集权值w[C1];(2.3)计算最小权值支持阈值MWS;所述MWS计算公式如式(2)所示:MWS=n×ms (2)式(2)中,所述ms为最小支持度阈值,n为文档索引库的文本文档总数;(2.4)如果w[C1]≥MWS,则C1就是特征词1_频繁项集L1,添加到频繁项集集合FIS;(2.5)采用Aproiri连接方法将特征词1_频繁项集L1自连接得到多个2_候选项集C2;(2.6)剪枝不含原查询词项的2_候选项集C2;(2.7)对余下的2_候选项集C2,扫描文档索引库分别统计C2的项集权值w[C2];(2.8)如果w[C2]≥MWS,则C2就是特征词2_频繁项集L2,添加到频繁项集集合FIS;(2.9)采用Aproiri连接方法将特征词(k‑1)_频繁项集Lk‑1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;(2.10)扫描文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到所述最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);(2.11)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝所述Ck;(2.12)对于余下的Ck,如果w[Ck]≥MWS×k并且wmin[(iq)]≥minRate×wmax[(ip)],那么,对应的Ck就是特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minRate为最小项集权值比阈值;所述wmin[(iq)]为最小项目的项集权值,wmax[(ip)]为最大项目的项集权值,wmin[(iq)]和wmax[(ip)]的含义如下:假设k_候选项集Ck=(i1,i2,…ik),Ck的各个项目i1,i2,…,ik单独作为1_项集时对应为(i1),(i2),…,(ik),在文档索引库中统计1_项集(i1),(i2),…,(ik)的项集权值分别为w[(i1)],w[(i2)],…,w[(ik)],将w[(i1)],w[(i2)],…,w[(ik)]中最小的项集权值称为最小项目的项集权值,记为wmin[(iq)],对应的1_项集记为(iq),将与Ck对应的所述项目iq称为Ck的最小项目,同理,将w[(i1)],w[(i2)],…,w[(ik)]中最大的项集权值称为最大项目的项集权值,记为wmax[(ip)],对应的1_项集记为(ip),将与Ck对应的所述项目ip称为Ck的最大项目;所述q∈(1,2,…,k),p∈(1,2,…,k);(2.13)如果特征词k_频繁项集Lk为空集,则特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.9)继续顺序循环;步骤3.通过计算项集的卡方值和关联规则置信度值从频繁项集中提取含有原查询词项的强加权关联规则,具体步骤如下:(3.1)构建特征词k_频繁项集Lk的所有真子集项集集合;(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
qt∪Et=Lk,
QTL为原查询词项集合,Et为不含原查询词项的特征词项集Et,计算项集(qt,Et)的卡方值Chis(qt,Et),计算公式如式(3)所示:
式(3)中,w[(qt)]为项集qt在文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为文档索引库的文本文档总数;(3.3)如果Chis(qt,Et)>0,则分别计算特征词加权关联规则置信度WConf(qt→Et)和WConf(Et→qt);若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强关联规则模式,添加到关联规则模式集合AR;若WConf(Et→qt)≥mc,则Et→qt是强关联规则模式,添加到关联规则模式集合AR;所述WConf(qt→Et)和WConf(Et→qt)的计算公式如式(4)和(5)所示:![]()
式(4)和(5)中,w[(qt)],k1,w[(Et)],k2,w[(qt,Et)],kL的定义同式(3);(3.4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的特征词关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(3.1)进行另一个Lk的关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘关联规则模式,则结束关联规则模式挖掘,转入如下步骤4;步骤4.从关联规则模式集合AR中提取每个关联规则Et→qt的前件Et和关联规则qt→Et的后件Et作为查询扩展词,计算所述扩展词权值we,计算公式如式(6)所示:
式(6)中,max(WConf())和max(Chis())分别表示关联规则置信度和卡方值的最大值,
表示项集中最小项目的项集权值和最大项目的项集权值的比值的最大值,即当扩展词重复出现在多个关联规则模式时,分别取上述3个度量值的最大值;步骤5.扩展词与原查询词组合为新查询再次检索文档得到最后检索结果文档返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811649207.6/,转载请声明来源钻瓜专利网。