[发明专利]基于加权正负规则前件与相关反馈的跨语言查询扩展方法有效
申请号: | 201710807540.4 | 申请日: | 2017-09-08 |
公开(公告)号: | CN107609095B | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/245 | 分类号: | G06F16/245;G06F16/2455 |
代理公司: | 广西南宁明智专利商标代理有限责任公司 45106 | 代理人: | 黎明天 |
地址: | 530003 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于加权正负规则前件与相关反馈的跨语言查询扩展方法,先使用翻译工具将源语言查询翻译为目标语言查询,对目标语言文档进行检索得到初检文档,提取前列初检文档经用户相关性判断后构建目标语言初检相关文档集;再采用面向跨语言查询扩展的加权正负关联模式挖掘技术对初检相关文档集挖掘含有查询词项的特征词加权正负关联规则模式,构建特征词正负关联规则库;从规则库中提取其规则后件是查询词项的加权正负关联规则模式,将正关联规则前件特征词作为正扩展词,负关联规则前件作为负扩展词,正扩展词中去除负扩展词后得到最终前件扩展词实现跨语言查询译后前件扩展。本发明能提高和改善跨语言信息检索性能,有较好的应用价值和推广前景。 | ||
搜索关键词: | 基于 加权 正负 规则 相关 反馈 语言 查询 扩展 方法 | ||
【主权项】:
1.一种基于加权正负规则前件与相关反馈的跨语言查询扩展方法,其特征在于,包括如下步骤:1.1 使用机器翻译系统将源语言查询翻译为目标语言查询;1.2 目标语言查询检索目标语言原始文档集得到目标语言初检文档;1.3 构建目标语言初检相关文档集:即将前列n篇目标语言初检文档进行用户相关性判断得到初检相关文档,由此构建目标语言初检相关文档集;1.4 对目标语言初检相关文档集挖掘含有原查询词项的加权频繁项集和负项集;具体步骤:1.4.1 对目标语言初检相关文档集进行预处理,构建文档索引库和总特征词库;1.4.2 挖掘频繁1_项集L1:即从总的特征词库得到特征词候选1_项集C1,计算1_项集C1的支持度awSup(C1),如果awSup(C1)≥支持度阈值ms,则候选1_项集C1为频繁1_项集L1,并将L1添加到加权频繁项集集合PIS;所述的awSup(C1)计算公式如下:
其中,n和W为分别目标语言初检相关文档集中文档总篇数和所有特征词权值的总和,
为C1在目标语言初检相关文档集中出现的频度,
为C1在目标语言初检相关文档集中的项集权值,β∈(0,1)为调节系数,其值不能取0或1;1.4.3 挖掘含有查询词项的频繁k_项集Lk和负k_项集Nk,所述的k≥2具体步骤:(1)挖掘候选k_项集Ck:通过频繁(k‑1)_项集Lk‑1进行Aproiri连接而得到;(2)当k=2时,剪除不含查询词项的候选2_项集C2,保留含有查询词项的候选2_项集C2;(3)计算候选k_项集Ck的支持度awSup(Ck):如果awSup(Ck)≥支持度阈值ms,再计算Ck的加权频繁项集关联度awPIR(Ck),若awPIR(Ck)≥频繁项集关联度阈值minPR,则k_候选项集Ck为加权频繁k_项集Lk,添加到加权频繁项集集合PIS;若awSup(Ck)<ms,则计算加权负项集关联度awNIR(Ck),如果awNIR(Ck)≥负项集关联度阈值minNR,那么,Ck为加权负k_项集Nk,并添加到加权负项集集合NIS;所述的awSup(Ck)计算公式如下:
其中,
为Ck在目标语言初检相关文档集中出现的频度,
为Ck在目标语言初检相关文档集中的项集权值,k为Ck的项目个数;awPIR(Ck)的计算公式分两种情况:m=2和m>2情况,即,![]()
其中,候选加权正项集Ck=(t1,t2,…,tm),m≥2,tmax(1≤max≤m)是Ck的所有项目中其支持度最大的单项目,Iq为Ck的所有2_子项集至(m‑1)_子项集中其支持度最大的子项集;awNIR(Ck)的计算公式分两种情况:r=2和r>2情况,即,![]()
其中,候选加权负项集Ck=(t1,t2,…,tr),r≥2,tmax(1≤max≤r)是Ck的所有项目中其支持度最大的单项目,Ip为Ck的所有2_子项集至(r‑1)_子项集中其支持度最大的子项集;(4)若k_项集Lk为空集,则项集挖掘结束,转到步骤1.5,否则,转到步骤(1),继续挖掘;1.5 从加权频繁项集集合PIS中挖掘加权强正关联规则:对于特征词加权频繁项集集合PIS中每一个频繁k_项集Lk,所述的k≥2,挖掘Lk中前件是扩展词项集I而后件是查询词项集qt的关联规则I→qt,所述的qt和I的并集为Lk,qt和I的交集为空集,qt为查询词项集,I为扩展词项集,具体挖掘步骤如下:(1)求出正项集Lk的所有真子集,得到Lk真子集项集集合;(2)从Lk真子集集合中任意取出两个子项集qt和I,且
qt∪I=Lk,
(3)计算加权关联规则I→qt置信度awARConf(I→qt)及其提升度awARL(I→qt);若awARL(I→qt)>1,且awARConf(I→qt)>=最小加权置信度阈值mc,则得到加权强关联规则I→qt,并加入到加权强正关联规则集合PAR;所述的awARConf(I→qt)和awARL(I→qt)的计算公式如下:![]()
(4)返回步骤(2)再顺序进行,直到Lk真子集项集集合中每个真子集当且仅当被取出一次,然后从PIS集合中重新取出新的正项集Lk,转入步骤(1)进行新一轮加权关联规则挖掘,直到PIS中每一个正项集Lk都已经被取出为止,这时转入步骤1.6;1.6 从负项集集合NIS中挖掘加权强负关联规则:对于负项集集合NIS中每一个负项集Nk,k>=2,挖掘Nk中前件是查询词项集qt而后件是负扩展词项集I的加权负关联规则
和
所述的qt和I的并集为Nk,qt和I的交集为空集,具体挖掘步骤如下:(1)找出负项集Nk的所有真子集,得到Nk真子集集合;(2)从Nk真子集集合中任意取出两个子项集qt和I,且
qt∪I=Nk,
其中qt为查询项集;(3)计算提升度awARL(I→qt),若awARL(I→qt)<1:计算负关联规则
置信度
若awARConf (I→﹁qt) >=最小加权置信度阈值mc,则得到加权强负关联规则
并加入到加权强负关联规则集合NAR;计算负关联规则
置信度
若
则得到加权强负关联规则
并加入到NAR;所述的
和
的计算公式如下:![]()
(4)返回步骤(2)再顺序执行,直到Nk真子集集合中每个真子集当且仅当被取出一次为止,这时转入步骤(5);(5)从NIS集合中重新取出新的负项集Nk,转入步骤(1)进行新一轮加权负关联规则挖掘,如果NIS集合中每个负项集都当且仅当已经被取出一次,则加权强负关联规则挖掘结束,转入步骤1.7;1.7 从加权强正关联规则集合PAR中提取其规则后件是查询词项的加权正关联规则模式I→qt,将该正关联规则前件特征词作为候选扩展词,构建候选前件扩展词库;1.8 从加权强负关联规则集合NAR中提取其规则后件是查询词项的加权负关联规则模式![]()
和
将负关联规则前件I作为前件负扩展词,构建前件负扩展词库;1.9 对于候选前件扩展词库中每一个候选前件扩展词,与前件负扩展词库的负扩展词比较,在候选前件扩展词库中删除与负扩展词相同的候选扩展词,候选前件扩展词库中余下的候选前件扩展词即为最终前件扩展词;2.0 最终前件扩展词与目标语言原查询词组合为新查询再次检索,实现跨语言查询译后前件扩展。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710807540.4/,转载请声明来源钻瓜专利网。
- 上一篇:数据消歧方法、装置及计算机设备
- 下一篇:一种智能律师专家应答方法