[发明专利]基于项集权值比较的模式挖掘和混合扩展的文本检索方法有效

申请号：	201811649207.6	申请日：	2018-12-30
公开（公告）号：	CN109684465B	公开（公告）日：	2022-12-06
发明（设计）人：	黄名选	申请（专利权）人：	广西财经学院
主分类号：	G06F16/332	分类号：	G06F16/332
代理公司：	广西南宁公平知识产权代理有限公司 45104	代理人：	黄春莲
地址：	530000 广西壮族***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于项集权值比较的模式挖掘和混合扩展的文本检索方法，首先用户查询首次检索得到初检前列文档，构建并预处理初检相关文档集，通过比较项集权值挖掘含有原查询词项的频繁项集，通过项集中最小项目的项集权值和最大项目的项集权值的比值、项集的项目权值最大者或最大项目权值对候选项集剪枝，通过计算卡方值和置信度值从频繁项集提取含有原查询词项的关联规则，将那些后件是原查询词项的关联规则前件以及前件是原查询词项的关联规则后件作为扩展词，扩展词与原查询词组合为新查询再次检索文档集得到最终检索结果文档返回给用户。本发明采用基于项集权值比值的剪枝和混合扩展技术，检索性能得到改善和提升，应用价值高，推广前景广阔。
搜索关键词：	基于集权比较模式挖掘混合扩展文本检索方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于项集权值比较的模式挖掘和混合扩展的文本检索方法，包括下列步骤：步骤1.用户查询首次检索文档得到初检结果，用户对初检结果进行相关反馈判断得到初检相关文档集，预处理所述初检相关文档集，具体步骤如下：(1.1)用户查询首次检索文档集得到初检前列文档；(1.2)用户对初检前列文档进行相关性判断得到初检相关文档，构建初检相关文档集；(1.3)预处理初检相关文档集，构建文档索引库和特征词库；步骤2.结合原查询词项，挖掘含有原查询词项的特征词频繁项集，并进行项集剪枝，具体步骤如下：(2.1)从特征词库中提取特征词作为1_候选项集C₁；(2.2)扫描文档索引库，统计文档总数n和统计C₁的项集权值w[C₁]；(2.3)计算最小权值支持阈值MWS；所述MWS计算公式如式(2)所示：MWS＝n×ms (2)式(2)中，所述ms为最小支持度阈值，n为文档索引库的文本文档总数；(2.4)如果w[C₁]≥MWS，则C₁就是特征词1_频繁项集L₁，添加到频繁项集集合FIS；(2.5)采用Aproiri连接方法将特征词1_频繁项集L₁自连接得到多个2_候选项集C₂；(2.6)剪枝不含原查询词项的2_候选项集C₂；(2.7)对余下的2_候选项集C₂，扫描文档索引库分别统计C₂的项集权值w[C₂]；(2.8)如果w[C₂]≥MWS，则C₂就是特征词2_频繁项集L₂，添加到频繁项集集合FIS；(2.9)采用Aproiri连接方法将特征词(k‑1)_频繁项集L_k‑1自连接得到多个k_候选项集C_k＝(i₁,i₂,…,i_k)，所述k≥2；(2.10)扫描文档索引库，分别统计各C_k的项集权值w[C_k]和各C_k中最大的项目权值w_m，分别得到所述最大的项目权值w_m对应的项目i_m，所述m∈(1,2,…,k)；(2.11)如果所述项目i_m对应的1_项集(i_m)是非频繁的，或者w_m<MWS，则剪枝所述C_k；(2.12)对于余下的C_k，如果w[C_k]≥MWS×k并且w_min[(i_q)]≥minRate×w_max[(i_p)]，那么，对应的C_k就是特征词k_频繁项集L_k，添加到频繁项集集合FIS；所述minRate为最小项集权值比阈值；所述w_min[(i_q)]为最小项目的项集权值，w_max[(i_p)]为最大项目的项集权值，w_min[(i_q)]和w_max[(i_p)]的含义如下：假设k_候选项集C_k＝(i₁,i₂,…i_k)，C_k的各个项目i₁,i₂,…,i_k单独作为1_项集时对应为(i₁),(i₂),…,(i_k)，在文档索引库中统计1_项集(i₁),(i₂),…,(i_k)的项集权值分别为w[(i₁)],w[(i₂)],…,w[(i_k)]，将w[(i₁)],w[(i₂)],…,w[(i_k)]中最小的项集权值称为最小项目的项集权值，记为w_min[(i_q)]，对应的1_项集记为(i_q)，将与C_k对应的所述项目i_q称为C_k的最小项目，同理，将w[(i₁)],w[(i₂)],…,w[(i_k)]中最大的项集权值称为最大项目的项集权值，记为w_max[(i_p)]，对应的1_项集记为(i_p)，将与C_k对应的所述项目i_p称为C_k的最大项目；所述q∈(1,2,…,k)，p∈(1,2,…,k)；(2.13)如果特征词k_频繁项集L_k为空集，则特征词频繁项集挖掘结束，转入如下步骤3，否则，k加1后转入步骤(2.9)继续顺序循环；步骤3.通过计算项集的卡方值和关联规则置信度值从频繁项集中提取含有原查询词项的强加权关联规则，具体步骤如下：(3.1)构建特征词k_频繁项集L_k的所有真子集项集集合；(3.2)从真子集项集集合中任意取出两个真子集项集q_t和E_t，且q_t∪E_t＝L_k，Q_TL为原查询词项集合，E_t为不含原查询词项的特征词项集E_t，计算项集(q_t,E_t)的卡方值Chis(q_t,E_t)，计算公式如式(3)所示：式(3)中，w[(q_t)]为项集q_t在文档索引库中项集权值，k₁为项集q_t的长度，w[(E_t)]为项集E_t在文档索引库中项集权值，k₂为项集E_t的长度，w[(q_t,E_t)]为项集(q_t,E_t)在文档索引库中的项集权值，k_L为项集(q_t,E_t)的项目个数，n为文档索引库的文本文档总数；(3.3)如果Chis(q_t,E_t)>0，则分别计算特征词加权关联规则置信度WConf(q_t→E_t)和WConf(E_t→q_t)；若WConf(q_t→E_t)≥最小置信度阈值mc，则关联规则q_t→E_t是强关联规则模式，添加到关联规则模式集合AR；若WConf(E_t→q_t)≥mc，则E_t→q_t是强关联规则模式，添加到关联规则模式集合AR；所述WConf(q_t→E_t)和WConf(E_t→q_t)的计算公式如式(4)和(5)所示：式(4)和(5)中，w[(q_t)]，k₁，w[(E_t)]，k₂，w[(q_t,E_t)]，k_L的定义同式(3)；(3.4)如果L_k的每个真子集项集当且仅当都被取出一次，那么本次L_k中的特征词关联规则模式挖掘结束，这时从繁项集集合FIS中重新取出另一个L_k，并转入步骤(3.1)进行另一个L_k的关联规则模式挖掘，否则，转入步骤(3.2)再顺序执行各个步骤；如果频繁项集集合FIS中的每个L_k都已经被取出挖掘关联规则模式，则结束关联规则模式挖掘，转入如下步骤4；步骤4.从关联规则模式集合AR中提取每个关联规则E_t→q_t的前件E_t和关联规则q_t→E_t的后件Et作为查询扩展词，计算所述扩展词权值w_e，计算公式如式(6)所示：式(6)中，max(WConf())和max(Chis())分别表示关联规则置信度和卡方值的最大值，表示项集中最小项目的项集权值和最大项目的项集权值的比值的最大值，即当扩展词重复出现在多个关联规则模式时，分别取上述3个度量值的最大值；步骤5.扩展词与原查询词组合为新查询再次检索文档得到最后检索结果文档返回给用户。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广西财经学院，未经广西财经学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811649207.6/，转载请声明来源钻瓜专利网。

上一篇：通过权值比较实现规则后件挖掘的跨语言查询扩展方法
下一篇：一种智能教育顾问系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于项集权值比较的模式挖掘和混合扩展的文本检索方法有效

专利文献下载