[发明专利]基于权值比较与挖掘的跨语言译后前件扩展方法有效
申请号: | 201811646503.0 | 申请日: | 2018-12-30 |
公开(公告)号: | CN109684463B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于权值比较与挖掘的跨语言译后前件扩展方法,首先将源语言查询翻译为目标语言并检索目标语言文档,构建初检用户相关文档并预处理,通过权值比较在文本文档索引库挖掘含有原查询词项的特征词频繁项集,用项集关联度及项集的项目权值最大者或最大项目权值对候选项集剪枝,用卡方分析‑置信度评价框架从频繁项集挖掘含有原查询词项的特征词关联规则,将后件是原查询词项集合的关联规则前件项集作为扩展词,完成跨语言译后前件扩展。本发明能克服现有加权关联规则挖掘方法的缺陷,提高挖掘效率,挖掘与原查询相关的译后前件扩展词,提高和改善跨语言检索性能,在跨语言搜索引擎和web跨语言检索系统中具有较高的应用价值和推广前景。 | ||
搜索关键词: | 基于 比较 挖掘 语言 译后前件 扩展 方法 | ||
【主权项】:
1.基于权值比较与挖掘的跨语言译后前件扩展方法,其特征在于,包括下列步骤:步骤1:源语言用户查询通过机器翻译系统译为目标语言,采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档,通过对初检前列目标语言文档进行相关性判断构建初检用户相关文档集,预处理初检用户相关文档集,构建目标语言文本文档索引库和文本特征词库;步骤2:通过项集权值比较在初检用户相关文档集挖掘含有原查询词项的频繁项集,运用项集关联度值以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,具体步骤如下:(2.1)挖掘文本特征词1_频繁项集L1,具体步骤如下:(2.1.1)从文本特征词库中提取文本特征词作为1_候选项集C1;(2.1.2)扫描目标语言文本文档索引库,统计文本文档总数n和统计C1的项集权值w[C1];(2.1.3)计算最小权值支持阈值MWS;所述MWS计算公式如式(2)所示:MWS=n×ms (2)式(2)中,所述ms为最小支持度阈值,n为目标语言文本文档索引库的文本文档总数;(2.1.4)如果w[C1]≥MWS,则C1就是文本特征词1_频繁项集L1,添加到频繁项集集合FIS;(2.2)挖掘文本特征词2_频繁项集L2,具体步骤如下:(2.2.1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2;(2.2.2)剪枝不含原查询词项的2_候选项集C2;(2.2.3)对余下的2_候选项集C2,扫描目标语言文本文档索引库分别统计各余下2_候选项集C2的项集权值w[C2];(2.2.4)如果w[C2]≥MWS,则C2就是文本特征词2_频繁项集L2,添加到频繁项集集合FIS;(2.3)挖掘文本特征词k_频繁项集Lk,所述k≥2;具体步骤如下:(2.3.1)采用Aproiri连接方法将文本特征词(k‑1)_频繁项集Lk‑1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;(2.3.2)扫描目标语言文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到各Ck中最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);(2.3.3)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝对应的Ck;(2.3.4)对于余下的各Ck,分别计算各Ck的项集关联度IRe(Ck),如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,该Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minIRe为最小项集关联度阈值;所述IRe(Ck)的计算公式如式(3)所示;
式(3)中,wmin[(iq)]和wmax[(ip)]的含义如下:对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;所述q∈(1,2,…,k),p∈(1,2,…,k);(2.3.5)如果文本特征词k_频繁项集Lk为空集,则文本特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2.3.1)继续顺序循环;步骤3.采用卡方分析‑置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集Lk挖掘含有原查询词项的文本特征词加权关联规则模式,所述k≥2;具体方法如下:从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式:(3.1)构建Lk的所有真子集项集集合;(3.2)从真子集项集集合中任意取出两个真子集项集qt和Et,且
qt∪Et=Lk,
QTL为目标语言原查询词项集合,Et为不含原查询词项的特征词项集合,计算项集(qt,Et)的卡方值Chis(qt,Et),计算公式如式(4)所示:
式(4)中,w[(qt)]为项集qt在目标语言文本文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在目标语言文本文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为目标语言文本文档索引库的文本文档总数;(3.3)如果Chis(qt,Et)>0,则计算文本特征词加权关联规则置信度WConf(Et→qt);若WConf(Et→qt)≥最小置信度阈值mc,则关联规则Et→qt是强加权关联规则模式,添加到加权关联规则模式集合WAR;所述WConf(Et→qt)的计算公式如式(5)所示:
式(5)中,w[(Et)],k2,w[(qt,Et)],kL的定义同式(4);(3.4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的文本特征词加权关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(3.1)顺序执行进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(3.2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式,则结束整个加权关联规则模式挖掘,转入如下步骤4;步骤4:从加权关联规则模式集合WAR中提取每个加权关联规则Et→qt的前件Et作为译后扩展词,并按式(6)计算译后扩展词的权值we:we=0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)式(6)中,max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值的最大值和关联度的最大值;步骤5.步骤4所述译后扩展词与译后原查询词组合为新查询再次检索目标语言文档,完成跨语言译后前件扩展。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811646503.0/,转载请声明来源钻瓜专利网。