[发明专利]一种使用词义消歧的融合机器翻译系统的方法及装置无效
| 申请号: | 201310751048.1 | 申请日: | 2013-12-31 |
| 公开(公告)号: | CN103699529A | 公开(公告)日: | 2014-04-02 |
| 发明(设计)人: | 刘宇鹏 | 申请(专利权)人: | 哈尔滨理工大学 |
| 主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
| 代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 杨立超 |
| 地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 使用 词义 融合 机器翻译 系统 方法 装置 | ||
1.一种使用词义消歧的融合机器翻译系统的装置,其特征在于使用词义消歧的融合机器翻译系统的装置包括预处理器,WordNet系统,词义和语义计算器,混淆网络训练器与解码器;
所述预处理器对翻译结果进行分词,过滤处理;词义和语义计算器使用WordNet系统和多个机器翻译的结果生成混淆网络;混淆网络的训练过程是一个迭代的过程,在训练的过程中需要用到语言模型;训练得到的特征权重被输入到解码器中,对于测试语料生成最终翻译结果,并进行测试输出得分。
2.应用权利要求1的使用词义消歧的融合机器翻译系统的方法,其特征在于一种使用词义消歧的融合机器翻译系统的方法包括以下步骤:
一、使用预处理器对多个机器翻译结果进行预处理,使用词义分析器确定词义:
通过加入多种重叠打分机制对原Lesk算法进行改进,然后采用Lesk算法进行词义消歧,确定每个词的词义;其中所述对原Lesk算法进行改进具体为:
(1)在搜索过程的每个阶段,搜索器将限制左右各K和J个最有前景的候选,而K和J是根据当前词所在的短语进行确定的数;
(2)通过Beam的局部搜索来优化词义组合,通过应用启发式的技巧来缩减搜索空间;
(3)加入各种重叠打分以引入更多的相关信息;
二、使用词义和语义计算器对句子相似度进行计算:
(1)采用路径长度计算单词在句子中语义相似度;
(2)采用语义矩阵计算两个句子的语义相似度;
三、混淆网络的构建;
(1)骨架翻译的选择:通过改进后的Lesk算法和Hungarian算法计算语义相似度,找到与其他句子最相似的句子;
选择所有系统的最好翻译作为候选骨架翻译,计算任意候选骨架翻译和其他句子的句子相似度并取平均,把拥有最高分数的句子作为骨架翻译;
其中,所述计算句子相似度的流程如下:
(a)断词;
(b)对每个单词进行还原词根;
(c)词义消歧;
(d)将每一个词义对建立一个语义相关矩阵S[m,n],S[i,j]表示在假设翻译X中位置i和在假设翻译Y中位置j最相似词义的语义相关度;因此S[i,j]也是从i到j边上的权重;如果字典中不存在这个词则使用编辑距离计算相似性,输出单词之间的编辑距离;
(e)把计算两个句子的句子相似度看成二分图的最大权匹配,其中句子X和Y是两个不相交的集合;使用Hungarian算法求最大加权的匹配;
(f)以上步骤的匹配结果形成了两个句子的相似度分数;
(2)采用改进TER算法假设对齐:在骨架翻译和每个假设翻译中建立对齐关系,通过计算每对单词的相似度得分得到对齐结果;
(3)混淆网络的构建:假设翻译和骨架翻译通过加入null进行拉伸和对齐,从而构建混淆网络;
四、混淆网络的训练:混淆网络的训练采用传统的机器翻译MERT训练方法,使用混淆网络训练器进行迭代式训练,直到收敛为止;
五、混淆网络解码:使用解码器从混淆网络中解码出最好的翻译,采用经典自左向右的Beam-Search解码,完成混淆网络的解码,即完成一种使用词义消歧的融合机器翻译系统的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310751048.1/1.html,转载请声明来源钻瓜专利网。





