[发明专利]短语挖掘方法及装置有效
申请号: | 201610388049.8 | 申请日: | 2016-06-02 |
公开(公告)号: | CN107463554B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 卞华明;管陶然;史黎鑫;张海波;刘禹;赵宇;骆卫华;林锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F40/47 | 分类号: | G06F40/47;G06F40/58;G06F16/2457 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 李威;林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 短语 挖掘 方法 装置 | ||
本申请提供一种短语挖掘方法及装置,该方法可以包括:从原始语料中抽取候选短语集合,所述候选短语集合中包含若干候选短语;将所述候选短语集合分配至若干预设处理对象,以由所述预设处理对象根据预定义的筛选条件对被分配的候选短语进行筛选;根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语。通过本申请的技术方案,可以实现对高质量短语的准确挖掘。
技术领域
本申请涉及机器翻译技术领域,尤其涉及一种短语挖掘方法及装置。
背景技术
机器翻译(又称,自动翻译)是利用计算机把一种自然源语言转变为另一种自然目标语言的过程。在相关技术中,提出了一种统计机器翻译方式,即利用统计学的方法对大量的平行语料进行分析,并通过由此构建的机器翻译模型完成翻译操作。
然而,经过实践验证表明,即便通过对大规模数据的自动学习,统计机器翻译的翻译结果仍然存在难以控制的质量问题,尤其是对于已有准确翻译结果的数据,统计机器翻译方式输出的翻译结果可能并不准确,从而无法满足用户的实际应用需求。
发明内容
有鉴于此,本申请提供一种短语挖掘方法及装置,可以实现对高质量短语的准确挖掘。
为实现上述目的,本申请提供技术方案如下:
根据本申请的第一方面,提出了一种短语挖掘方法,包括:
从原始语料中抽取候选短语集合,所述候选短语集合中包含若干候选短语;
将所述候选短语集合分配至若干预设处理对象,以由所述预设处理对象根据预定义的筛选条件对被分配的候选短语进行筛选;
根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语。
根据本申请的第二方面,提出了一种短语挖掘装置,包括:
第一抽取单元,从原始语料中抽取候选短语集合,所述候选短语集合中包含若干候选短语;
分配单元,将所述候选短语集合分配至若干预设处理对象,以由所述预设处理对象根据预定义的筛选条件对被分配的候选短语进行筛选;
确定单元,根据所述预设处理对象返回的筛选结果,确定所述候选短语集合中满足预设质量条件的短语。
由以上技术方案可见,本申请通过将候选短语集合分配至若干预设处理对象,使前期机器处理与后期众包处理相结合,从而高效、准确筛选出高质量短语、筛除低质量短语,从而构建出高质量的术语库,以便于建立可实现高翻译质量的翻译记忆系统。
附图说明
图1是本申请一示例性实施例提供的一种短语挖掘方法的流程图。
图2是本申请一示例性实施例提供的一种翻译架构的示意图。
图3是本申请一示例性实施例提供的另一种短语挖掘方法的流程图。
图4-8是本申请一示例性实施例提供的一种切割语料的示意图。
图9是本申请一示例性实施例提供的一种电子设备的结构示意图。
图10是本申请一示例性实施例提供的一种短语挖掘装置的框图。
具体实施方式
由于统计机器翻译存在的问题,相关技术中进一步提出了基于翻译记忆的机器翻译方式。翻译记忆(translation memory)是一种用于存储原文本及其译文的语言数据库,通过事先存储术语的准确译文,使得用户可以直接搜索而获得已有的准确翻译结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610388049.8/2.html,转载请声明来源钻瓜专利网。