[发明专利]一种机器翻译数字泛化方法及系统、计算机、计算机程序在审
申请号: | 201711309873.0 | 申请日: | 2017-12-11 |
公开(公告)号: | CN107967263A | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 贝超;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙)11520 | 代理人: | 马红 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 数字 泛化 方法 系统 计算机 程序 | ||
技术领域
本发明属于计算机软件技术领域,尤其涉及一种机器翻译数字泛化方法及系统、计算机、计算机程序。
背景技术
机器翻译是一种利用机器学习的技术将一种自然语言翻译成另外一种自然语言的过程。作为计算语言学的一个重要分支,涉及认知科学、语言学等学科,是人工智能的终极目标之一。不同于基于短语的统计机器翻译,现有机器翻译主要是基于注意力机制的编码到解码结构的神经网络机器翻译。神经网络机器翻译的缺点为对内容难以控制,很难再对模型的输出进行人为的调控。其中最为明显的问题就在于,数字翻译错误,即原文与译文的数字不一致或者漏译多译。然而,很难在模型中控制对于数字翻译问题,对于译文,也很难进行后处理来弥补错误。因此,要避免这简单的数字翻译问题,进一步提高翻译质量,是个急需解决但不好解决的问题。数字泛化技术在神经网络机器翻译中,既无法指定标签不翻译,也不能指定替换为原文,这是由神经网络模型的可控程度差导致的。
综上所述,现有技术存在的问题是:目前的神经网络模型存在内容难以控制,很难再对模型的输出进行人为的调控,原文与译文的数字不一致或者漏译多译的问题。
发明内容
针对现有技术存在的问题,本发明提供了一种机器翻译数字泛化方法及系统、计算机、计算机程序。
本发明是这样实现的,一种机器翻译数字泛化方法,所述机器翻译数字泛化方法包括:对训练语料进行特殊的处理,在不改变神经网络模型结构的情况下进行正常训练的训练阶段;把翻译得到的译文中的泛化标签替换为正常的译文的翻译阶段;
进一步,所述训练阶段包括:
(1)对语料使用基于隐马尔科夫模型的分词算法,正常的分词,根据不同的语言使用正则表达式找到含有数字的词或者短语;
(2)词对齐,统计双语语料中共现词对频率,找到含有数字的词或者短语所对应的翻译,并替换为数字标签;
(3)已经替换为数字泛化标签的语料正常训练。
进一步,所述翻译阶段具体包括:
(1)对原文分词找到含有数字的词或者短语,替换为数字泛化标签;
(2)泛化后的语料训练的神经网络模型,对已泛化处理的原文进行翻译;
(3)得到译文后,通过神经网络模型中的注意力信息,找到译文中数字泛化标签所对应的原文,根据训练阶段使用词对齐工具得到的词对信息,把数字泛化标签替换为译文,得到最后的译文。
本发明的另一目的在于提供一种所述机器翻译数字泛化方法的机器翻译数字泛化系统,所述机器翻译数字泛化系统包括:
训练模块,用于对训练语料进行特殊的处理;
翻译模块,用于把翻译得到的译文中的泛化标签替换为正常的译文。
所述训练模块进一步包括:
第一找词单元,用于找到含有数字的词或者短语;
第一替换单元,用于将含有数字的词或者短语的平行语料可为翻译阶段提供替换的译文;
训练单元,用于替换数字泛化标签的语料正常训练。
所述翻译模块进一步包括:
第二找词单元,用于对原文进行类似训练语料的处理,替换其中含有数字的词或者短语为泛化标签,与训练语料的格式一致;
第二替换单元,用于对已泛化处理的原文进行翻译;
替换译文单元,用于替换译文中的数字泛化标签,得到正常的译文。
本发明的另一目的在于提供一种实现所述机器翻译数字泛化方法的计算机程序。
本发明的另一目的在于提供一种搭载有所述计算机程序的计算机。
本发明的另一目的在于提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行所述的机器翻译数字泛化方法。
本发明拓展了泛化技术在神经网络机器翻译中的应用,基于短语的统计机器翻译中,可直接干预模型,而神经网络模型却无法使用相同的策略。针对神经网络模型较难人为干预的情况,在不改变神经网络机器翻译模型的前提下,只是改变了预处理以及后处理即可应用泛化技术,拓展了泛化技术在神经网络机器翻译中的应用,更好地适应了新的机器翻译模型结构。既可以更为准确地翻译含有数字的词或者短语,又可以把词表中的数字替换为泛化标签,降低了词表大小,提高了神经网络模型训练效率。
附图说明
图1是本发明实施例提供的机器翻译数字泛化方法流程图。
图2是本发明实施例提供的机器翻译数字泛化系统结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711309873.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种神经网络蒙汉机器翻译方法
- 下一篇:翻译机、翻译系统和翻译方法