[发明专利]基于完全加权规则后件的中英跨语言查询译后扩展方法有效
申请号: | 201711433112.6 | 申请日: | 2017-12-26 |
公开(公告)号: | CN108170778B | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/2452 | 分类号: | G06F16/2452 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 完全 加权 规则 中英跨 语言 查询 扩展 方法 | ||
1.基于完全加权规则后件的中英跨语言查询译后扩展方法,其特征在于:首先利用机器翻译工具进行中英跨语言初次检索,提取初检前列英文文档经用户相关性判断构建初检相关文档集,对初检相关文档集进行预处理,构建初检英文文档库和特征词库;采用融合项集权值和频度的完全加权项集支持度计算方法对初检英文文档库挖掘含有译后原查询词项的完全加权频繁项集得到完全加权频繁项集集合;然后,采用基于完全加权置信度-兴趣度评价框架对所述完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则,构建英文特征词关联规则库,从所述英文特征词关联规则库中提取规则后件作为中英跨语言译后扩展词,所述译后扩展词与译后原查询词组合为新查询再次检索英文文档;
所述采用融合项集权值和频度的完全加权项集支持度计算方法对初检英文文档库挖掘含有译后原查询词项的完全加权频繁项集方法如下:
(1)挖掘英文特征词完全加权频繁1_项集L1:
从所述特征词库中提取英文特征词作为英文特征词候选1_项集C1,计算C1的完全加权支持度awSup(C1),如果awSup(C1)≥支持度阈值ms,则C1为完全加权频繁1_项集L1,将L1添加到完全加权频繁项集集合awPIS;
awSup(C1)计算公式如式(2)所示:
式(2)中,为英文特征词候选1_项集C1在初检英文文档库中的项集权值累加所得的总和值,W为初检英文文档库中所有英文特征词权值的累加总和值,n为初检英文文档库中英文文档总篇数,为英文特征词候选1_项集C1在初检英文文档库中出现的频度;
(2)挖掘英文特征词完全加权频繁k_项集Lk,所述的k≥2,具体步骤:
(2.1)采用Apriori连接方法将英文特征词完全加权频繁(k-1)_项集Lk-1进行自连接得到英文特征词完全加权候选k_项集Ck,所述的k≥2;
(2.2)当挖掘到2_项集C2时,将不含译后原查询词项的英文特征词候选2_项集C2删除,保留含有译后原查询词项的候选2_项集C2;
(2.3)计算Ck的完全加权支持度awSup(Ck)如式(3)所示:
式(3)中,为英文特征词候选k_项集Ck在初检英文文档库中项集权值的累加总和值,为Ck在初检英文文档库中的项集频度,n为初检英文文档库中的英文文档总篇数,W为初检英文文档库中所有英文特征词权值的累加总和值,为英文特征词完全加权候选k_项集Ck的项集长度,项集长度是指项集中的项目总个数;
(2.4)如果awSup(Ck)≥ms,则Ck就是英文特征词完全加权频繁k_项集Lk,添加到完全加权频繁项集集合awPIS;
(2.5)若英文特征词完全加权频繁k_项集Lk为空集,则含有译后原查询词项的完全加权频繁项集挖掘结束,否则,k加1后转入步骤(2.1)继续循环;
所述采用基于完全加权置信度-兴趣度评价框架对所述完全加权频繁项集挖掘前件是译后原查询词项的英文特征词间完全加权关联规则,构建英文特征词关联规则库的具体步骤如下:
对于所述完全加权频繁项集集合awPIS中每一个频繁k_项集Lk,所述的k≥2,采用置信度-兴趣度评价框架从频繁k_项集Lk中挖掘前件是译后原查询词项的英文特征词完全加权关联规则,步骤如下:
(1)取出频繁k_项集Lk的所有真子集项集,构建Lk真子集项集集合;
(2)取出Lk真子集项集集合中任意两个真子集项集qt和Et,且qt∪Et=Lk,所述的QEn为译后原查询词项集合;
(3)计算英文特征词完全加权兴趣度awInt(qt,Et),如果awInt(qt,Et)≥最小兴趣度阈值mi,则计算英文特征词完全加权置信度awConf(qt→Et),若awConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强英文特征词完全加权关联规则,并加入到英文特征词完全加权关联规则集合awAR;awInt(qt,Et)和awConf(qt→Et)的计算公式如式(4)和式(5)所示:
式(4)和(5)中,n1、n2和n12分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)在初检英文文档库中出现的频度,k1、k2项k12分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)的项集长度,w1、w2和w12分别为英文特征词完全加权项集qt、Et以及项集(qt,Et)在初检英文文档库中的项集权值累加所得的总和值;
(4)返回步骤(2)循环执行,直到Lk的真子集项集集合中每个真子集项集当且仅当被取出一次,然后从完全加权频繁项集集合awPIS中重新取出新的频繁k_项集Lk,转入步骤(1)进行新一轮完全加权关联规则挖掘,直到完全加权频繁项集集合awPIS中每一个频繁k_项集Lk都已经被取出,则英文特征词间完全加权关联规则挖掘结束;
所述从英文特征词关联规则库中提取规则后件作为中英跨语言译后扩展词的方法为:
从所述英文特征词关联规则库中提取每个关联规则qt→Et的后件Et作为跨语言查询译后后件扩展词,按下式(6)计算该后件扩展词的权值Wexp:
Wexp=0.5×[max(awConf(qt→Et))+max(awInt(qt,Et)))] (6)
式(6)表明,当扩展词重复出现在多个关联规则qt→Et时,则存在多个置信度和多个兴趣度,这时分别取置信度的最大值max(awConf(qt→Et))和兴趣度的最大值max(awInt(qt,Et))参与扩展词权值计算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711433112.6/1.html,转载请声明来源钻瓜专利网。