[发明专利]基于项权值排序挖掘的印尼-英跨语言译后混合扩展方法在审
申请号: | 201811416316.3 | 申请日: | 2018-11-26 |
公开(公告)号: | CN109558603A | 公开(公告)日: | 2019-04-02 |
发明(设计)人: | 黄名选 | 申请(专利权)人: | 广西财经学院 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F16/332 |
代理公司: | 广西南宁公平知识产权代理有限公司 45104 | 代理人: | 黄春莲 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于项权值排序挖掘的印尼‑英跨语言译后混合扩展方法,先将印尼语查询译为英文并检索英文文档,构建初检用户相关反馈文档集;将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,从初检用户相关反馈文档集中挖掘特征词频繁项集并通过项权值排序进行剪枝,用置信度‑相关系数评价框架从特征词频繁项集中挖掘特征词加权关联规则;将后件是原查询词项的关联规则前件项集以及前件是原查询词项的关联规则后件项集作为译后扩展词,实现印尼‑英跨语言译后混合扩展。本发明用项权值排序的剪枝方法,提高挖掘效率,挖掘与原查询相关的扩展词,提高和改善印尼‑英跨语言文本信息检索性能,有较好的应用价值和推广前景。 | ||
搜索关键词: | 特征词 挖掘 排序 关联规则 查询词 文档集 剪枝 反馈 前件 文档 语言 加权关联规则 查询 频繁项集 信息检索 语言文本 英文 频度 印尼语 置信度 构建 后件 检索 融合 应用 | ||
【主权项】:
1.基于项权值排序挖掘的印尼‑英跨语言译后混合扩展方法,其特征在于,包括下列步骤:步骤1:印尼语查询机器翻译为英文并检索英文文档集得到初检前列英文文档,用户对初检前列n篇英文文档进行相关性判断得到初检相关文档,构建初检用户相关反馈文档集,预处理初检用户相关反馈文档集,构建英文文档索引库和特征词库;所述预处理方法为:去除英文停用词,通过词干提取得到特征词,计算特征词权值,最后构建英文文档索引库和特征词库;步骤2:将项集权值和频度与初检用户相关反馈文档集的特征词总权值和文档总数融合,从初检用户相关反馈文档集中挖掘含有原查询词项的特征词频繁项集,通过项权值排序对特征词候选项集进行剪枝,最后得到特征词频繁项集集合FIS;步骤3:采用置信度‑相关系数评价框架从特征词频繁项集集合FIS中挖掘特征词加权关联规则,得到特征词加权关联规则模式集合WAR;步骤4:从特征词加权关联规则模式集合WAR中提取那些后件是原查询词项的关联规则Et→qt的前件项集Et以及前件是原查询词项的关联规则qt→Et的后件项集Et作为译后扩展词,计算所述译后扩展词权值;步骤5:步骤4所述译后扩展词与译后原查询词组合为新译后查询再次检索英文文档,完成印尼‑英跨语言译后混合扩展。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西财经学院,未经广西财经学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811416316.3/,转载请声明来源钻瓜专利网。