[发明专利]同时识别双语术语与词对齐的实现方法及实现系统在审

申请号：	201611170300.X	申请日：	2016-12-16
公开（公告）号：	CN106649289A	公开（公告）日：	2017-05-10
发明（设计）人：	张家俊;黄国平;周玉;宗成庆	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G06F17/28	分类号：	G06F17/28
代理公司：	北京瀚仁知识产权代理事务所(普通合伙)11482	代理人：	郭文浩,李飞
地址：	100080 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	同时识别双语术语对齐实现方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及自然语言处理技术领域，更具体地，涉及一种同时识别双语术语与词对齐的实现方法及实现系统。

背景技术

机器翻译是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语言，翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。词对齐是统计机器翻译的一项核心任务，它从双语平行语料中发掘互为翻译的语言片断，是翻译知识的主要来源。简而言之，词对齐就是源语言句子中某个词是由目标语言中哪个词翻译而来的。如图1所示，一个词可以被翻译为一个或多个词，甚至不被翻译。在实践中，一部分词对齐错误因未能正确识别和处理术语对应关系而触发，因而进一步影响最终机器翻译译文质量。因此如果能自动识别出平行句对中的术语对应关系，能显著提升词对齐质量，进而增强机器翻译译文质量，尤其是术语的翻译质量。

此外，术语广泛存在于具体的领域语料中，如计算机和医学领域。在微软本地化翻译语料中，平均每100个词就包含15个术语。自动术语识别是指从文本中自动发现领域术语的过程。它是一项具有重要作用的语言技术，在自然语言处理、机器翻译等应用领域具有重要意义。自动术语识别常用的方法包括基于规则方法和基于统计方法。基于规则方法是根据术语构成模式建立一套规则，选择匹配规则的词语作为领域术语。这种方法的最大缺陷是人工编写的规则不可能覆盖所有的语言学现象，领域依赖性很强。基于统计方法主要应用词频、TF-IDF、互信息、信息熵、log-likelihood、假设检验等统计特征，选择特征值符合阈值的词语作为领域术语。基于统计方法不受领域限制，但是对于单词术语和低频术语的识别并不理想，抽取的术语也存在较多噪声。

而当前自动术语识别的性能并没有达到能直接用于词对齐的水平。其主要原因为如下两点：(1)性能更好的基于机器学习技术的术语识别方法需要高质量的人工标数据，但目前极度缺乏足量且高质量的术语标注数据；(2)不断有新的术语产生，标注数据的更新速度严重滞后于实际需求。所以，如果直接将自动术语识别结果作为词对齐的约束，并不能带来性能的提升。因此，研究如何同时提高自动术语识别和词对齐性能，并提高最终的机器翻译译文质量是迫切需要解决的一个难题。

发明内容

为了解决现有技术中的上述问题，即为了解决自动术语识别和词对齐性能，并提高最终的机器翻译译文质量的问题，本发明提供了一种人同时识别双语术语与词对齐的实现方法。

为实现上述目的，本发明提供了如下方案：

一种同时识别双语术语与词对齐的实现方法，所述实现方法包括：

对一对源语言句子和目标语言句子进行分词，获得源语言词组和目标语言词组；

对所述源语言词组和目标语言词组进行词对齐，获得源语言句子到目标句子的对齐初始词；

分别识别所述源语言句子和目标语言句子中的术语，获得初始单语术语；所述初始单语术语包含初始源语言术语和初始目标语言术语；

结合所述对齐初始词、初始单语术语，进行术语对齐，得到初始源语言术语到初始目标语言术语的对齐初始术语；

将所述对齐初始术语作为锚点，通过扩大或者收缩术语边界，获得扩展后的初级双语术语候选列表；

对所述初级双语术语候选列表进行双语术语识别，获得修正的次级双语术语候选列表；

对所述次级双语术语候选列表进行二次双语术语识别和词对齐，获得终极双语术语和终极对齐词。

可选的，所述获得初始单语术语的方法包括：