[发明专利]基于权值比较与挖掘的跨语言译后前件扩展方法有效

申请号：	201811646503.0	申请日：	2018-12-30
公开（公告）号：	CN109684463B	公开（公告）日：	2022-11-22
发明（设计）人：	黄名选	申请（专利权）人：	广西财经学院
主分类号：	G06F16/332	分类号：	G06F16/332
代理公司：	广西南宁公平知识产权代理有限公司 45104	代理人：	黄春莲
地址：	530000 广西壮族***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于权值比较与挖掘的跨语言译后前件扩展方法，首先将源语言查询翻译为目标语言并检索目标语言文档，构建初检用户相关文档并预处理，通过权值比较在文本文档索引库挖掘含有原查询词项的特征词频繁项集，用项集关联度及项集的项目权值最大者或最大项目权值对候选项集剪枝，用卡方分析‑置信度评价框架从频繁项集挖掘含有原查询词项的特征词关联规则，将后件是原查询词项集合的关联规则前件项集作为扩展词，完成跨语言译后前件扩展。本发明能克服现有加权关联规则挖掘方法的缺陷，提高挖掘效率，挖掘与原查询相关的译后前件扩展词，提高和改善跨语言检索性能，在跨语言搜索引擎和web跨语言检索系统中具有较高的应用价值和推广前景。
搜索关键词：	基于比较挖掘语言译后前件扩展方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于权值比较与挖掘的跨语言译后前件扩展方法，其特征在于，包括下列步骤：步骤1：源语言用户查询通过机器翻译系统译为目标语言，采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档，通过对初检前列目标语言文档进行相关性判断构建初检用户相关文档集，预处理初检用户相关文档集，构建目标语言文本文档索引库和文本特征词库；步骤2：通过项集权值比较在初检用户相关文档集挖掘含有原查询词项的频繁项集，运用项集关联度值以及项集的项目权值最大者或者最大项目权值对项集进行剪枝，具体步骤如下：(2.1)挖掘文本特征词1_频繁项集L₁，具体步骤如下：(2.1.1)从文本特征词库中提取文本特征词作为1_候选项集C₁；(2.1.2)扫描目标语言文本文档索引库，统计文本文档总数n和统计C₁的项集权值w[C₁]；(2.1.3)计算最小权值支持阈值MWS；所述MWS计算公式如式(2)所示：MWS＝n×ms (2)式(2)中，所述ms为最小支持度阈值，n为目标语言文本文档索引库的文本文档总数；(2.1.4)如果w[C₁]≥MWS，则C₁就是文本特征词1_频繁项集L₁，添加到频繁项集集合FIS；(2.2)挖掘文本特征词2_频繁项集L₂，具体步骤如下：(2.2.1)采用Aproiri连接方法将文本特征词1_频繁项集L₁自连接得到多个2_候选项集C₂；(2.2.2)剪枝不含原查询词项的2_候选项集C₂；(2.2.3)对余下的2_候选项集C₂，扫描目标语言文本文档索引库分别统计各余下2_候选项集C₂的项集权值w[C₂]；(2.2.4)如果w[C₂]≥MWS，则C₂就是文本特征词2_频繁项集L₂，添加到频繁项集集合FIS；(2.3)挖掘文本特征词k_频繁项集L_k，所述k≥2；具体步骤如下：(2.3.1)采用Aproiri连接方法将文本特征词(k‑1)_频繁项集L_k‑1自连接得到多个k_候选项集C_k＝(i₁,i₂,…,i_k)，所述k≥2；(2.3.2)扫描目标语言文本文档索引库，分别统计各C_k的项集权值w[C_k]和各C_k中最大的项目权值w_m，分别得到各C_k中最大的项目权值w_m对应的项目i_m，所述m∈(1,2,…,k)；(2.3.3)如果所述项目i_m对应的1_项集(i_m)是非频繁的，或者w_m<MWS，则剪枝对应的C_k；(2.3.4)对于余下的各C_k，分别计算各C_k的项集关联度IRe(C_k)，如果w[C_k]≥MWS×k并且IRe(C_k)≥minIRe，那么，该C_k就是文本特征词k_频繁项集L_k，添加到频繁项集集合FIS；所述minIRe为最小项集关联度阈值；所述IRe(C_k)的计算公式如式(3)所示；式(3)中，w_min[(i_q)]和w_max[(i_p)]的含义如下：对于C_k＝(i₁,i₂,…i_k)，k_候选项集C_k的各个项目i₁,i₂,…,i_k分别单独作为1_项集时对应为(i₁),(i₂),…,(i_k)；w_min[(i_q)]和w_max[(i_p)]分别表示1_项集(i₁),(i₂),…,(i_k)中最小的1_项集权值和最大的1_项集权值；所述q∈(1,2,…,k)，p∈(1,2,…,k)；(2.3.5)如果文本特征词k_频繁项集L_k为空集，则文本特征词频繁项集挖掘结束，转入如下步骤3，否则，k加1后转入步骤(2.3.1)继续顺序循环；步骤3.采用卡方分析‑置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集L_k挖掘含有原查询词项的文本特征词加权关联规则模式，所述k≥2；具体方法如下：从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集L_k，按照下面步骤挖掘每个L_k的所有含有原查询词项的关联规则模式：(3.1)构建L_k的所有真子集项集集合；(3.2)从真子集项集集合中任意取出两个真子集项集q_t和E_t，且q_t∪E_t＝L_k，Q_TL为目标语言原查询词项集合，E_t为不含原查询词项的特征词项集合，计算项集(q_t,E_t)的卡方值Chis(q_t,E_t)，计算公式如式(4)所示：式(4)中，w[(q_t)]为项集q_t在目标语言文本文档索引库中项集权值，k₁为项集q_t的长度，w[(E_t)]为项集E_t在目标语言文本文档索引库中项集权值，k₂为项集E_t的长度，w[(q_t,E_t)]为项集(q_t,E_t)在目标语言文本文档索引库中的项集权值，k_L为项集(q_t,E_t)的项目个数，n为目标语言文本文档索引库的文本文档总数；(3.3)如果Chis(q_t,E_t)>0，则计算文本特征词加权关联规则置信度WConf(E_t→q_t)；若WConf(E_t→q_t)≥最小置信度阈值mc，则关联规则E_t→q_t是强加权关联规则模式，添加到加权关联规则模式集合WAR；所述WConf(E_t→q_t)的计算公式如式(5)所示：式(5)中，w[(E_t)]，k₂，w[(q_t,E_t)]，k_L的定义同式(4)；(3.4)如果L_k的每个真子集项集当且仅当都被取出一次，那么本次L_k中的文本特征词加权关联规则模式挖掘结束，这时从繁项集集合FIS中重新取出另一个L_k，并转入步骤(3.1)顺序执行进行另一个L_k的加权关联规则模式挖掘，否则，转入步骤(3.2)再顺序执行各个步骤；如果频繁项集集合FIS中的每个L_k都已经被取出挖掘加权关联规则模式，则结束整个加权关联规则模式挖掘，转入如下步骤4；步骤4：从加权关联规则模式集合WAR中提取每个加权关联规则E_t→q_t的前件Et作为译后扩展词，并按式(6)计算译后扩展词的权值w_e：w_e＝0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)式(6)中，max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值的最大值和关联度的最大值；步骤5.步骤4所述译后扩展词与译后原查询词组合为新查询再次检索目标语言文档，完成跨语言译后前件扩展。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广西财经学院，未经广西财经学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811646503.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于权值比较与挖掘的跨语言译后前件扩展方法有效

专利文献下载