[发明专利]一种使用词义消歧的融合机器翻译系统的方法及装置无效
| 申请号: | 201310751048.1 | 申请日: | 2013-12-31 |
| 公开(公告)号: | CN103699529A | 公开(公告)日: | 2014-04-02 |
| 发明(设计)人: | 刘宇鹏 | 申请(专利权)人: | 哈尔滨理工大学 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
| 代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
| 地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 使用 词义 融合 机器翻译 系统 方法 装置 | ||
技术领域
本发明涉及使用词义消歧的融合机器翻译系统的方法及装置,属于机器翻译领域。
背景技术
机器翻译系统融合技术通过融合多个机器翻译系统的输出结果来获得更好性能。系统融合技术可以认为是多个机器翻译结果的后处理过程。基于词的系统融合与基于句子/短语的系统融合技术相比,在性能上得到了大幅提高。基于词的系统融合与模型级系统融合相比,有更低的复杂度,能融合更多系统。本发明使用开放本体库资源WordNet进行词义消歧,使得计算语义相似度更加准确。
WordNet最初是1985年由普林斯顿大学认知科学实验室建立,它是在当前基于人类词汇记忆的心理语言学理论推动下产生的。它是一部在线词典数据库系统,采用了与传统词典不同的方式,即按照词义而不是词形来组织词汇信息。经过十几年的发展,它将逐渐成为一种国际标准,许多国家在筹划和建立与英文WordNet兼容的本国语言WordNet系统,如Euro-WordNet,中文的HowNet。WordNet有很多应用,如词义标注、词义消歧、建立基于词义分类的统计模型、基于概念的文本检索、文本校对、知识推理、知识工程及概念建模等等。
WordNet使用同义词集合(Synset)来代表词汇概念,将英语的名词、动词、形容词和副词组织为Synset,并描述词汇矩阵模型,即在词的形式和意义之间建立起映射关系。每一个Synset表示一个基本的词汇概念,并在这些概念之间建立四种关系:
(1)同义关系(synonymy):两个词在句子中可以互相替代,则是同义关系,如heavy和weighty是一对同义词;
(2)反义关系(antonymy):反义关系并不是WordNet的基本组织形式,是一种词形关系,如wet和dry就是形容词的反义关系;
(3)上-下位关系(hypernymy&hyponymy):是词汇间的语义关系,这种关系也称为下属-上属或子集-超集关系,如松树是树的下位词,而树称为松树的上位词;
(4)整体-部分关系(holonym&meronymy):该关系不具有对称关系,且不一定满足传递性,如wing是bird的部分词,bird是wing的整体词;
等多种语义关系。上-下位关系和整体-局部关系的Synset集合见图3。WordNet中的词由Synset组成,Synset之间用关系指针指示它们的语义关系。关系指针代表了一个Synset跟另一个Synset之间的关系如:同义、反义、上-下位以及整体-部分关系。
发明内容
本发明是要实现对多个机器翻译系统进行后处理式融合,且在融合过程中提高单语对齐的质量,实现混淆网络高效训练和解码,而提供了一种使用词义消歧的融合机器翻译系统的方法及装置。
一种使用词义消歧的融合机器翻译系统的装置包括预处理器,词义和语义计算器,混淆网络训练器与解码器;
所述预处理器对翻译结果进行分词,过滤等处理;词义和语义计算器使用WordNet系统和多个机器翻译的结果生成混淆网络;混淆网络的训练过程是一个迭代的过程,在训练的过程中需要用到语言模型;训练得到的特征权重被输入到解码器中,对于测试语料生成最终翻译结果,并进行测试输出得分。
一种使用词义消歧技术的融合机器翻译系统的方法包括以下步骤:
一、使用预处理器对多个机器翻译结果进行预处理,使用词义分析器确定词义:
通过加入多种重叠打分机制对原Lesk算法进行改进,然后采用改进后的Lesk算法进行词义消歧,确定每个词的词义;其中所述对原Lesk算法进行改进具体为:
(1)在搜索过程的每个阶段,搜索器将限制左右各K和J个最有前景的候选,而K和J是根据当前词所在短语所确定的数;
(2)通过Beam的局部搜索来优化词义组合,通过应用启发式技巧来缩减搜索空间;
(3)加入各种重叠打分以引入更多的相关信息;
二、使用词义和语义计算器对句子相似度进行计算:
(1)采用路径长度计算单词在句子中语义相似度;
(2)采用语义矩阵计算两个句子的语义相似度;
三、混淆网络的构建;
(1)骨架翻译的选择:通过改进后的Lesk算法和Hungarian算法计算语义相似度,找到与其他句子最相似的句子;
选择所有系统的最好翻译作为候选骨架翻译,计算任意候选骨架翻译和其他句子的句子相似度并取平均,把拥有最高分数的句子作为骨架翻译;
其中,所述计算句子相似度的流程如下:
(a)断词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310751048.1/2.html,转载请声明来源钻瓜专利网。





