[发明专利]一种自动探索更多参考译文信息的机器翻译优化方法有效
申请号: | 201710262369.3 | 申请日: | 2017-04-20 |
公开(公告)号: | CN107133223B | 公开(公告)日: | 2019-06-25 |
发明(设计)人: | 黄书剑;季红洁;戴新宇;陈家骏;张建兵 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27;G06N20/00 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华;于瀚文 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种自动探索更多参考译文信息的机器翻译优化方法,利用图扩展参考译文的信息,对机器翻译得到的译文进行更充分的评价,同时在利用译文信息扩展的评价方法参与训练过程时,帮助系统更好的进行参数学习。主要步骤如下:利用GIZA++获取源端到目标端的词对齐信息,根据词对齐信息将参考译文切分成短语块,利用源端词序对每一个参考译文构建子图,将若干个子图合并,最终可将并列的若干个参考译文表示成一个参考译文图,将不同的参考译文联系起来,获得更多的信息,最终利用源语言将待评价译文和参考译文图之间联系起来,从图中选出一条与待评价译文最接近的路径进行最终的译文质量评价。 | ||
搜索关键词: | 一种 自动 探索 更多 参考 译文 信息 机器翻译 优化 方法 | ||
【主权项】:
1.一种自动探索更多参考译文信息的机器翻译优化方法,其特征在于,包括如下步骤:步骤1,构建参考译文图;步骤2,准备语言模型,翻译模型,选取开发集,利用最小化错误率训练方法在开发集上进行机器翻译系统的参数优化,改进已有的评价方法BLEU;步骤3,对于开发集中的参考译文,获取与机器翻译译文最接近的路径,利用该路径代替原先的参考译文,进行n元文法匹配,获得优化后的翻译评价结果;步骤1包括如下步骤:步骤1‑1,利用词对齐工具GIZA++获取源端到参考译文之间的词对齐结果;根据任意两个短语对之间不存在交叉规则和最小闭包规则,将源端和参考译文分割成一个以上的短语块;步骤1‑2,根据源端的语序将步骤1‑1得到的短语块组合成一个参考译文子图,参考译文子图中的节点为每个短语块中的译文和对应的源端短语在句子中的词序,用数字表示;参考译文子图中的边为有向边,其方向表示句子顺序;若存在两个以上参考译文,则得到两个以上参考译文子图,执行步骤1‑3;若只存在一个参考译文,则得到一个参考译文子图,执行步骤1‑4;步骤1‑3,将得到的参考译文子图按照节点内容是否相同进行增量合并,若参考译文和源端词序均相同,则合并两个节点为一个节点;若只有源端词序相同,而参考译文不同,则保留这两个节点A、B,同时添加节点A的前一个节点到B的边以及A到B的后一个节点的边,对节点B执行相同的加边操作,即添加节点B的前一个节点到A的边以及B到节点A的后一个节点之间的边,最终得到能够表示两个以上参考译文的参考译文图,执行步骤1‑5;步骤1‑4,利用意译表对得到的参考译文子图进行拓展,得到最终的参考译文图;步骤1‑5,从参考译文图中选取出一条与机器翻译译文最接近的路径作为最终的参考译文。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710262369.3/,转载请声明来源钻瓜专利网。