[发明专利]一种机器翻译数字泛化方法及系统、计算机、计算机程序在审
申请号: | 201711309873.0 | 申请日: | 2017-12-11 |
公开(公告)号: | CN107967263A | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 贝超;程国艮 | 申请(专利权)人: | 中译语通科技股份有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 北京万贝专利代理事务所(特殊普通合伙)11520 | 代理人: | 马红 |
地址: | 100040 北京市石*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 机器翻译 数字 泛化 方法 系统 计算机 程序 | ||
1.一种机器翻译数字泛化方法,其特征在于,所述机器翻译数字泛化方法包括:对训练语料进行特殊的处理,在不改变神经网络模型结构的情况下进行正常训练的训练阶段;把翻译得到的译文中的泛化标签替换为正常的译文的翻译阶段。
2.如权利要求1所述的机器翻译数字泛化方法,其特征在于,所述训练阶段包括:
(1)对语料使用基于隐马尔科夫模型的分词算法,正常的分词,根据不同的语言使用正则表达式找到含有数字的词或者短语;
(2)词对齐,统计双语语料中共现词对频率,找到含有数字的词或者短语所对应的翻译,并替换为数字标签;
(3)已经替换为数字泛化标签的语料正常训练。
3.如权利要求1所述的机器翻译数字泛化方法,其特征在于,所述翻译阶段具体包括:
(1)对原文分词找到含有数字的词或者短语,替换为数字泛化标签;
(2)泛化后的语料训练的神经网络模型,对已泛化处理的原文进行翻译;
(3)得到译文后,通过神经网络模型中的注意力信息,找到译文中数字泛化标签所对应的原文,根据训练阶段使用词对齐工具得到的词对信息,把数字泛化标签替换为译文,得到最后的译文。
4.一种如权利要求1所述机器翻译数字泛化方法的机器翻译数字泛化系统,其特征在于,所述机器翻译数字泛化系统包括:
训练模块,用于对训练语料进行特殊的处理;
翻译模块,用于把翻译得到的译文中的泛化标签替换为正常的译文。
5.如权利要求4所述的机器翻译数字泛化系统,其特征在于,所述训练模块进一步包括:
第一找词单元,用于找到含有数字的词或者短语;
第一替换单元,用于将含有数字的词或者短语的平行语料可为翻译阶段提供替换的译文;
训练单元,用于替换数字泛化标签的语料正常训练。
6.如权利要求4所述的机器翻译数字泛化系统,其特征在于,所述翻译模块进一步包括:
第二找词单元,用于对原文进行类似训练语料的处理,替换其中含有数字的词或者短语为泛化标签,与训练语料的格式一致;
第二替换单元,用于对已泛化处理的原文进行翻译;
替换译文单元,用于替换译文中的数字泛化标签,得到正常的译文。
7.一种实现权利要求1~3任意一项所述机器翻译数字泛化方法的计算机程序。
8.一种搭载有权利要求7所述计算机程序的计算机。
9.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1~3任意一项所述的机器翻译数字泛化方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711309873.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种神经网络蒙汉机器翻译方法
- 下一篇:翻译机、翻译系统和翻译方法