[发明专利]基于加权关联规则后件挖掘的印尼-英跨语言检索方法在审
申请号: | 201811416862.7 | 申请日: | 2018-11-26 |
公开(公告)号: | CN109582770A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F16/332 | 分类号: | G06F16/332 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于加权关联规则后件挖掘的印尼‑英跨语言检索方法,将印尼语用户查询机器翻译为英文并检索英文文档,构建初检相关文档集;结合译后原查询词项,将项集权值和频度与初检用户相关反馈英文文档集的特征词总权值和文档总数融合,采用支持度‑置信度‑相关系数评价框架对初检相关文档集挖掘那些前件是译后原查询词项的特征词加权关联规则,提取加权关联规则后件作为译后扩展词,扩展词与译后原查询词组合为新查询再次检索英文文档;将最终检索结果英文文档机器翻译为印尼语文档返回给用户。本发明能挖掘出与原查询相关的扩展词,通过项权值排序对特征词候选项集剪枝,提高挖掘效率,改善和提升印尼‑英跨语言信息检索性能。 | ||
搜索关键词: | 加权关联规则 英文 挖掘 特征词 文档集 后件 文档 机器翻译 跨语言检索 查询词 检索 跨语言信息检索 检索结果 用户查询 查询 频度 词组合 候选项 新查询 印尼语 支持度 置信度 剪枝 构建 前件 排序 语文 反馈 返回 融合 | ||
【主权项】:
1.基于加权关联规则后件挖掘的印尼‑英跨语言检索方法,其特征在于,包括下列步骤:步骤1:印尼语用户查询机器翻译为英文并检索英文文档得到初检前列英文文档;用户对初检前列n篇英文文档进行相关性判断得到初检相关文档,构建初检用户相关反馈英文文档集;预处理初检用户相关反馈英文文档集,构建英文文档索引库和特征词库;所述预处理方法为去除英文停用词,通过词干提取得到英文特征词,计算英文特征词权值,最后构建英文文档索引库和特征词库;步骤2:将项集权值和频度与初检用户相关反馈英文文档集的特征词总权值和文档总数融合,对初检用户相关反馈英文文档集挖掘含有译后原查询词项的英文特征词频繁项集,得到英文特征词频繁项集集合FIS;步骤3:采用置信度‑相关系数评价框架从英文特征词频繁项集集合FIS中挖掘英文特征词加权关联规则,所述关联规则的前件必须由译后原查询词项组成;得到英文特征词加权关联规则模式集合WAR;步骤4:从英文特征词加权关联规则模式集合WAR中提取规则后件Et作为印尼‑英跨语言译后英文扩展词,计算英文扩展词权值;步骤5:所述步骤4的英文扩展词与译后英文原查询词组合为新译后查询再次检索英文文档得到最终检索结果英文文档;步骤6:最终检索结果英文文档经机器翻译工具译为印尼语文档并返回给用户。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811416862.7/,转载请声明来源钻瓜专利网。