[发明专利]基于RCSAC框架挖掘和规则后件扩展的跨语言文本检索方法在审

专利信息
申请号: 201811649213.1 申请日: 2018-12-30
公开(公告)号: CN109753559A 公开(公告)日: 2019-05-14
发明(设计)人: 黄名选 申请(专利权)人: 广西财经学院
主分类号: G06F16/332 分类号: G06F16/332;G06F16/33;G06F17/28
代理公司: 广西南宁公平知识产权代理有限公司 45104 代理人: 黄春莲
地址: 530000 广西壮族*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 关联规则 目标语言 语言文本 挖掘 机器翻译 规则后件 检索目标 语言文档 查询词 后件 检索 关联规则挖掘 目标语言文档 源语言查询 源语言文档 检索结果 检索性能 频繁项集 词组合 关联度 文档集 新查询 置信度 剪枝 构建 前件 文档 查询 翻译 返回 应用 分析
【说明书】:

发明公开了基于RCSAC框架挖掘和规则后件扩展的跨语言文本检索方法,首先借助机器翻译工具将源语言查询翻译为目标语言并检索目标语言文档,构建目标语言初检相关文档集,再通过项集权值比较在目标语言初检相关文档集中挖掘含有原查询词项的频繁项集,采用关联度‑卡方分析‑置信度评价框架从频繁项集中挖掘那些前件是原查询词项的关联规则,提取关联规则后件作为扩展词,扩展词与原查询词组合为新查询再次检索目标语言文档,将最终检索结果目标语言文档机器翻译为源语言文档返回给用户。本发明能克服现有关联规则挖掘技术的缺陷,采用项集剪枝和关联规则后件扩展技术,提高和改善跨语言文本检索性能,具有较高的应用价值和推广前景。

技术领域

本发明属于信息检索领域,具体是基于RCSAC框架挖掘和规则后件扩展的跨语言文本检索方法。

背景技术

跨语言信息检索指的是借助机器翻译工具以一种语言的查询去检索另外一种或者多种语言的信息资源的检索技术。随着网络技术和机器翻译技术的迅猛发展,跨语言信息检索技术得到了广泛的关注和讨论,学者们从不同的角度和方向对跨语言信息检索模型与算法进行了深入探讨和研究,取得了丰富的成果,然而,当前跨语言信息检索研究所存在的问题是查询主题严重漂移和词不匹配问题,这些问题常常导致跨语言检索性能低下。近年来,基于关联规则挖掘和查询扩展的跨语言信息检索研究得到了更多的关注和讨论,例如,基于相关反馈扩展的跨语言信息检索方法(Gao J F,Nie J Y,Zhang J,et al.TREC-9CLIR Experiments at MSRCN[C].In:Proceedings of the 9th Text RetrievalEvaluation Conference,2001:343-353.),基于潜在语义的跨语言信息检索方法(宁健,林鸿飞.基于改进潜在语义分析的跨语言检索[J].中文信息学报,2010,24(3):105-111.)和基于关联模式挖掘和查询扩展的跨语言信息检索方法(黄名选.基于加权关联模式挖掘的越-英跨语言查询扩展[J].情报学报,2017,36(3):307-318.,黄名选.完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展.小型微型计算机系统,2017,38(8):1783-1791.),等等,但还没有最终完全解决跨语言信息检索中查全率和查准率问题。

当前,中国南宁市作为中国-东盟博览会永久举办地以来,中国与东盟国家的政治、经济、文化等往来更加频繁和密切,面向东盟国家语言的跨语言信息检索和跨语言信息服务研究显得更加迫切,其重要性日益凸显。鉴于此,有必要研究以印尼语和英语为语言对象的跨语言文本检索方法,能提高和改善跨语言文本信息检索性能,具有较好的应用价值和推广前景。

发明内容

本发明提出基于RCSAC框架挖掘和规则后件扩展的跨语言文本检索方法,适用于跨语言信息检索和搜索引擎等领域,能提高跨语言检索性能,解决跨语言信息检索中查询主题漂移和词不匹配问题。

本发明采用以下技术方案:

基于RCSAC框架挖掘和规则后件扩展的跨语言文本检索方法,包括下列步骤:

步骤1:机器翻译工具对源语言用户查询翻译为目标语言并检索目标语言文档,得到初检前列文档集,根据用户对初检前列文档的相关性判断,构建和预处理目标语言初检相关文档集的。具体步骤为:

(1.1)源语言用户查询通过机器翻译系统译为目标语言,采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档。

机器翻译系统是:微软必应机器翻译接口Microsoft Translator API,或者,谷歌机器翻译接口,等等。

(1.2)通过对初检前列目标语言文本文档进行相关性判断构建目标语言初检相关文档集。

(1.3)预处理目标语言初检相关文档集,构建目标语言文本文档索引库和特征词库。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811649213.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top